近年 来 ， 大 数据 成 为 业界 与 学 术 界 的 热门 话题 之 一 ， 数 据 已 经 成 为 每 个 公司 极为 重要 的 资产 。 互 联网 上 大 量 的 公开 数据 为 个 人 和 公司 提供 了 以 往 想 象 不 到 的 可 以 获取 的 数据 量 ， 而 掌握 网 络 爬 虫 技 术 可 
以 帮助 你 获取 这 些 有 用 的 公开 数据 集 。 


执笔 本 书 的 起 因 是 我 打算 在 知 乎 上 写 博 客 向 香港 中 文大 学 市 场 莒 销 学 的 研究 生 讲 解 Python 网 络 礁 虫 技 术 ， 让 这 些 商科 学 生 掌握 一 些 大 数据 时 代 重 要 的 技术 。 因 此 ， 本 书 除 了 面向 技术 人 员外 ， 还 面向 不 
懂 编 程 的 “小 白 ”， 希 望 能 够 将 网 络 爬 虫 学 习 的 门槛 降 低 ， 让 大 家 都 能 享受 到 使 用 网 络 聆 虫 编程 的 乐趣 。 过 去 的 一 年 中 ， 本 书 第 1 版 帮助 很 多 读者 开启 了 Python 和 网 络 聆 虫 的 世界 ， 因 此 有 幸 获 得 出 版 社 的 
邀请 ， 在 之 前 版 本 的 基础 上 进行 修改 ， 更 新 书 中 的 案例 以 及 添加 新 的 内 容 ， 形 成 第 2 版 。 


本 书 所 有 代码 均 在 Python 3.6 中 测试 通过 ， 并 存放 在 Github 和 百度 网 盘 上 : Github 链 接 为 https://github.com/Santostang/PythonScraping; 百度 网 盘 链 接 
为 https://pan.baidu.com/s/14RA8Ssrew8&tbqVT977JDvNw， 提 取 码 为 h2kf。 为 了 方便 大 家 练习 Python 网 络 爬 虫 ， 我 专门 搭建 了 一 个 博客 网 站 用 于 Python 网 络 聆 虫 的 教学 ， 本 书 的 教学 部 分 全 部 基于 疏 取 
我 的 个 人 博客 网 (www.santostang.com) 。 一 方面 ， 由 于 这 个 网 站 不 会 更 改 设计 和 框架 ， 因 此 本 书 的 网 络 爬 虫 代码 可 以 一 直 使 用 ; 另 一 方面 ， 由 于 这 是 我 自己 的 博客 网 站 ， 因 此 可 以 避免 一 些 法 律 上 的 风 


险 。 

读者 对 象 
(1) 对 Python 编程 和 网 络 怜 虫 感 兴趣 的 大 专 院 校 师 生 ， 需 要 获取 数据 进行 分 析 ; 
(2) 打算 转行 或 入 行 他 虫 工 程 师 、 数 据 分 析 师 、 数 据 科 学 家 的 人 士 ; 


(3) 需要 使 用 网 络 代 虫 技术 自动 获取 数据 分 析 的 各 行业 人 士 。 
勘误 和 支持 


由 于 作者 水 平和 能 力 有 限 ， 编 写 时 间 仓 促 ， 不 受 之 处 在 所 难免 ,希望 读者 批评 指正 。 本 书 的 读者 QQ 群 为 798652826， 欢 迎 读者 加 群 交流 。 另 外 ， 也 可 以 到 我 的 博客 www.santostang.com 反 馈 意见 ， 
欢迎 读者 和 网 络 季 虫 爱好 者 不 音 赐教 。 


如 何 阅读 本 书 
本 书 分 为 17 章 。 


第 1~7 章 为 基础 部 分 ， 主 要 介绍 Python 入 门 ，Python 网 络 公 虫 的 获取 网 页 、 解 析 网 页 和 存储 数 据 三 个 流程 ， 以 及 Scrapy 耻 虫 框架 。 这 部 分 每 一 章 的 最 后 都 有 自我 实践 题 ， 读 者 可 以 通过 实践 是 熟悉 
Pythons f BARES. 
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本 书 几 乎 每 章 都 使 用 案例 来 学 习 Python 网 络 聆 虫 ， 希 望 告诉 读者 “通过 实战 解决 实际 问题 ， 才 能 高 效 地 学 习 新 知识 ”。 手 输 代码 ， 练 习 案 例 ， 才 是 学 习 Python 和 网 络 聆 虫 的 有 效 方法 。 
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第 1 草 ”网 络 乳 虫 入 门 


网 络 爬 虫 就 是 自动 地 从 互联 网 上 获取 程序 。 想 必 你 听 说 过 这 个 词汇 ， 但 是 又 不 太 了 解 ， 会 觉得 掌握 网 络 爬 虫 还 是 要 花 一 些 工 夫 的 ， 因 此 这 个 门槛 让 你 有 点 望而却步 。 


我 常常 觉得 计算 机 和 互联 网 的 发 明 给 人 类 带 来 了 如 此 大 的 方便 ， 让 人 们 不 用 阅读 说 明 书 就 能 知道 如 何 上 手 ， 但 是 偏偏 编程 的 道路 又 是 如 此 艰辛 。 因 此 ， 本 书 尽 可 能 地 做 到 浅显 易 懂 ， 硕 望 能 够 将 网 络 疏 
忠 学 习 的 门槛 降低 ， 大 家 都 能 享受 到 使 用 网 络 候 虫 编 程 的 快乐 。 


本 书 的 第 1 章 将 介绍 网 络 爬 求 的 基础 部 分 ， 包 括 学 习 网 络 爬 的 原因 、 网 络 爬 求 带 来 的 价值 、 网 络 爬 求 是 否 合法 以 及 网 络 爬 求 的 基本 议题 和 框架 。 让 读者 在 开始 学 习 怜 虫 之 前 理解 为 什么 学 习 、 要 学 什么 


内 容 。 


1.4. ATA hig 


在 数据 量 爆 发 式 增长 的 互联 网 时 代 ， 网 站 与 用 户 的 沟通 本 质 上 是 数据 的 交换 : 搜索 引 警 从 数据 库 中 提取 搜索 结果 ， 将 其 展现 在 用 户 面 前 ; 电 商 将 产品 的 描述 、 价 格 展现 在 网 站 上 ， 以 供 买 家 选择 心仪 的 
产品 ; 社交 媒体 在 用 户 生态 圈 的 自我 交互 下 产生 大 量 文本 、 图 片 和 视频 数据 等 。 这 些 数据 如 果 得 以 分 析 利 用 ， 不 仅 能 够 帮助 第 一 方 企业 (拥有 这 些 数据 的 企业 ) 做 出 更 好 的 决策 ， 对 于 第 三 方 企业 也 是 有 益 
的 。 而 网 络 怜 虫 技术 ， 则 是 大 数据 分 析 领 域 的 第 一 个 环节 。 


1.1.1. 网 络 聆 虫 能 市 来 什么 好 处 


大 量 企业 和 个 人 开始 使 用 网 络 聆 虫 采 集 互 联网 的 公开 数据 。 那 么 对 于 企业 而 言 ， 互 联网 上 的 公开 数据 能 够 带 来 什么 好 处 呢 ? 这 里 将 用 国内 某 家 知名 家 电 品牌 举例 说 明 。 


作为 一 个 家 电 品 牌 ， 电 商 市 场 的 重要 性 日 益 凸显 。 该 品牌 需要 及 时 了 解 对 手 的 产品 特点 、 价 格 以 及 销量 情况 ， 才 能 及 时 跟 进 产品 开发 进度 和 营销 策略 ， 从 而 知己 知 彼 ， 赢 得 竞争 。 过 去 ， 为 了 获取 对 手 
产品 的 特点 ， 产 品 研发 部 门 会 手动 访问 一 个 个 电 商 产品 页 面 ， 人 工 复制 并 粘贴 到 Excel 表 格 中 ， 制 作 竞 品 分 析 报 告 。 但 是 这 种 重复 性 的 手动 工作 不 仪 浪费 宝贵 的 时 间 ， 一 不 留神 复制 少 了 一 个 数字 还 会 导致 数 
据 错 误 ; 此 外 ， 竞 争 对 手 的 销量 则 是 由 某 一 家 咨询 公司 提供 报告 ,每 周一 次 ,但 是 报告 缺乏 实时 性 ， 难 以 针对 快速 多 变 的 市 场 及 时 调整 价格 和 营销 策略 。 针 对 上 述 两 个 痛 点 一 一 无 法 自动 化 和 无 法 实时 获 
取 ， 本 书 介 绍 的 网 络 息 虫 技术 都 能 够 很 好 地 解决 ， 实 现实 时 自动 化 获取 数据 。 


上 面 的 例子 仅 为 数据 应 用 的 冰山 一 角 。 近 几 年 来 ， 随 着 大 数据 分 析 的 火热 ， 毕 竟 有 数据 才能 进行 分 析 ， 网 络 爬 虫 技术 已 经 成 为 大 数据 分 析 领 域 的 第 一 个 环节 。 


对 于 这 些 公开 数据 的 应 用 价值 ， 我 们 可 以 使 用 KYC 框 架 来 理解 ， 也 就 是 Know Your Company (了 解 你 的 公司 ) 、Know Your Competitor (了 解 你 的 竞争 对 手 ) . Know Your Customer (了 解 你 能 
客户 ) 。 通 过 简单 描述 性 分 析 ， 这 些 公 开 数 据 就 可 以 带 来 很 大 的 商业 价值 。 进 一 步 讲 ， 通 过 深入 的 机 器 学 习 和 数据 挖掘 ， 在 营销 领域 可 以 帮助 企业 做 好 4P (Product: 产品 创新 ，Place: 智能 选 
HE, Price: 动态 价格 ，Promotion : 个 性 化 营销 活动 ) ; 在 金融 领域 ， 大 数据 征 信 、 智 能 选 股 等 应 用 会 让 公开 数据 带 来 越 来 越 大 的 价值 。 


1.1.2 能 从 网 络 上 肛 取 什么 数据 


简单 来 说 ， 平 时 在 浏览 网 站 时 ， 所 有 能 见 到 的 数据 都 可 以 通过 爬虫 程序 保存 下 来 。 从 社交 媒体 的 每 一 条 发 帖 到 团购 网 站 的 价格 及 点 评 ， 再 到 招聘 网 站 的 招聘 信息 ， 这 些 数 据 都 可 以 人 存储 下 来 。 


1.1.3 MAZER 


正在 准备 继续 阅读 本 书 的 读者 可 能 会 问 自己 : 我 应 不 应 该 学 爬虫 ? 


这 也 是 我 之 前 问 自己 的 一 个 问题 ， 作 为 一 个 本 科 是 商学 院 的 学 生 ， 面 对 着 技术 创新 驱动 变革 的 潮流 ， 我 还 是 自学 了 Python 的 网 络 聆 虫 技 术 ， 从 此 踏 入 了 编程 的 世界 。 对 于 编程 小 白 而 言 ， 入 门 网 络 怜 虫 
并 没有 想象 中 那么 困难 ， 困 难 的 是 你 有 没有 踏 出 第 一 步 。 


我 认为 ， 对 于 任何 一 个 与 互联 网 有 关 的 从 业 人 员 ， 无 论 是 非 技 术 的 产品 、 运 营 或 营销 人 员 ， 还 是 前 端 、 后 端的 程序 员 ， 都 应 该 学 习 网 络 他 虫 技术 。 
一 方面 ， 网 络 他 虫 简单 易学 、 门 槛 很 低 。 没 有 任何 编程 基础 的 人 在 认真 看 完 本 书 的 候 虫 基础 内 容 后 ， 都 能 够 自己 完成 简单 的 网 络 息 虫 任务 ， 从 网 站 上 自动 获取 需要 的 数据 。 


男 一 方面 ， 网 络 季 虫 不 仅 能 使 你 学 会 一 项 新 的 技术 ， 还 能 让 你 在 工作 的 时 候 节 省 大 量 的 时 间 。 如 果 你 对 网 络 候 虫 的 世界 有 兴趣 ， 就 算 你 不 懂 编 程 也 不 要 担心 ， 本 书 将 会 深入 浅 出 地 为 你 讲解 网 络 有 拒 虫 。 


1.2 网络 爬虫 是 售 合 法 


page SANS? 


WIRE ARIAT SGT, BARRMEADAEY EB SAE ALS (Robots) ， 但 法 律 部 分 还 在 建立 和 完善 中 。 从 目前 的 情况 来 看 ， 如 果 抓 取 的 数据 属于 个 人 
使 用 或 科研 范畴 ， 基 本 不 存在 问题 ， 而 如 果 数 据 属于 商业 盈利 范畴 ， 就 要 就 事 而 论 ， 有 可 能 属于 违法 行为 ， 也 有 可 能 不 违法 。 


1.2.1 Robots 协 议 


Robots 协 议 (MRM) 的 全 称 是 “网 络 候 虫 排除 标准 ” (Robots Exclusion Protocol) ， 网 站 通过 Robots 协 议 告诉 搜索 引擎 哪些 页 面 可 以 抓 取 ， 哪 些 页 面 不 能 抓 取 。 该 协议 是 国际 互联 网 界 通行 的 
道德 规 学 ， 虽 然 没有 写 入 法 律 ， 但 是 每 一 个 有 聆 虫 都 应 该 遵守 这 项 协议 。 


下 面 以 淘宝 网 的 robots.txt 为 例 进 行 介绍 。 


这 里 仅 截取 部 分 代码 ， 查 看 完整 代码 可 以 访问 https//www.taobao.comy/robots.txt。 


User-agent:  Baiduspider SELBE n 5| 8E 
Allow: /article # 人 允许 访问 /article.htm、/article/12345.com 
Allow: /oshtml 
Allow: /ershou 

Disallow:  /product/ # 禁 止 访问 /product/12345 .com 
Disallow: / # 禁 止 访 问 除 ALLow 规 定 页 面 外 的 其 他 所 有 页 面 


User-Agent: Googlebot A3 Jud | 3E 
Allow: /article 

Allow:  /oshtml 
Allow:  /product # 人 允许 访问 /product.htm、/product/12345.com 
Allow: /spu 
Allow: /dianpu 
A 

A 

D 


llow: /wenzhang 


llow: /oversea 
isallow: / 


在 上 面 的 robots 文 件 中 ， 淘 宝 网 对 用 户 代理 为 百度 怜 虫 引擎 进行 了 规定 。 

以 Allow 项 的 值 开 头 的 URL 是 允许 robot 访 问 的 。 例 如 ，Allow: /article 人 允许 百 度 怜 虫 引 警 访问 /article.htm、V/article/12345.com 等 。 

以 Disallow 项 为 开头 的 链接 是 不 允许 百度 有 季 虫 引擎 访问 的 。 例 如 ，Disallow: /product/ 不 允许 百度 有 季 虫 引擎 访问 /product/12345.com 等 。 
最 后 一 行 ，Disallow: / 茶 止 百度 爬虫 访问 除了 Allow 规 定 页 面 外 的 其 他 所 有 页 面 。 


因此 ， 当 你 在 百度 搜索 “淘宝 ”的 时 候 ， 搜 索 结 果 下 方 的 小 字 会 出 现 : “由 于 该 网 站 的 robots.txt 文 件 人 存在 限制 指令 (限制 搜索 引擎 抓 取 ) ， 系 统 无 法 提供 该 页 面 的 内 容 描述 ”， 如 图 1-1 所 示 。 百 度 作 
为 一 个 搜索 引擎 ， 良 好 地 遵守 了 淘宝 网 的 robot.txt 协 议 ， 所 以 你 是 不 能 从 百度 上 搜索 到 淘宝 内 部 的 产品 信息 的 。 
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图 1-1 百度 搜索 提示 


淘宝 的 Robots 协 议 对 谷歌 怜 虫 的 待遇 则 不 一 样 ， 和 百度 聆 虫 不 同 的 是 ， 它 允许 谷歌 朴 虫 怜 取 产品 的 页 面 Allow: /product。 因 此 ， 当 你 在 谷歌 搜索 “淘宝 iphone7” 的 时 候 ， 可 以 搜索 到 淘宝 中 的 产 
品 ， 如 图 1-2 所 示 。 
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图 1-2 ”谷歌 搜索 的 信息 


当 你 聆 取 网 站 数据 时 ， 无 论 是 否 仅 供 个 人 使 用 ， 都 应 该 遵守 Robots 协 议 。 


1.2.2 ”网 络 季 虫 的 约束 

除了 上 述 Robots 协 议 之 外 ， 我 们 使 用 网 络 爬 虫 的 时 候 还 要 对 自己 进行 约束 : 过 于 快速 或 者 频密 的 网 络 爬 虫 都 会 对 服务 器 产生 巨大 的 压力 ， 网 站 可 能 封锁 你 的 |P， 甚 至 采取 进一步 的 法 律 行 动 。 因 此 ， 你 
需要 约束 自己 的 网 络 爬 虫 行为 ， 将 请 求 的 速度 限定 在 一 个 合理 的 范围 之 内 。 

提示 “本 书 中 的 疏 虫 仅 用 于 学 习 、 研 究 用 途 ， 请 不 要 用 于 非法 用 途 。 任 何 由 此 引发 的 法 律 纠 纷 ， 请 自行 负责 。 


实际 上 ， 由 于 网 络 由 中 获取 的 数据 带 来 了 巨大 的 价值 ， 网 络 和 中 逐渐 演变 成 一 场 网 站 方 与 候 中 方 的 战争 ， 你 的 矛 长 一 寸 ， 我 的 盾 便 厚 一 寸 。 在 携程 技术 微分 享 上 ， 携 程 酒店 研发 部 研发 经 理 岩 广 字 分 享 
过 一 个 “三 月 息 虫 ”的 故事 ， 也 就 是 每 年 的 三 月 份 会 迎 来 一 个 公 虫 高峰 期 。 因 为 有 大 量 的 大 学 生 五 月 份 交 论文 ， 在 写 论 文 的 时 候 会 选择 候 取 数据 ， 也 就 是 三 月 份 候 取 数据 ， 四 月 份 分 析 数 据 ， 五 月 份 交 论 
x. 


因此 ， 各 大 互联 网 巨头 也 已 经 开始 调集 资源 来 限制 候 虫 ， 保 护 用 户 的 流量 和 减少 有 价值 数据 的 流失 。 


2007 年 ， 爱 帮 网 利用 垂直 搜索 技术 获取 了 大 众 点 评 网 上 的 商户 简介 和 消费 者 点 评 ， 并 且 直 接 大 量 使 用 。 大 众 点 评 网 多 次 要 求爱 帮 有 网 停止 使 用 这 些 内容 ， 而 爱 帮 网 以 自己 是 使 用 垂直 搜索 获得 的 数据 为 


由 ， 拒 绝 停止 抓 取 大 众 点 评 网 上 的 内 容 ， 并 且 质疑 大 众 点 评 网 对 这 些 内 容 所 享有 的 著作 权 。 为 此 ， 双 方 开打 了 两 场 官司 。2011 年 1 月 ， 北 京 海淀 法 院 做 出 判决 : 爱 帮 网 侵犯 大 众 点 评 网 著作 权 成 立 ， 应 当 停 
止 侵权 并 赔偿 大 众 点 评 网 经 济 损失 和 诉讼 必要 支出 。 


2013 年 10 月 ， 百 度 诉 360 违 反 Robots 协 议 。 百 度 方面 认为 ，360 违 反 了 Robots 协 议 ， 擅 自 抓 取 、 复 制 百度 网 站 内 容 并 生成 快照 向 用 户 提供 。2014 年 8 月 7 日 ， 北 京 市 第 一 中 级 人 民法 院 做 出 一 审判 决 ， 
法 院 认 为 被 告 奇 虎 360 的 行为 违反 了 《上 反 不 正当 竞争 法 》 相 关 规 定 ， 应 赔偿 原告 百度 公司 70 万 元 。 


虽然 说 大 众 点 评 上 的 点 评 数 据 、 百 度 知 道 的 问答 由 用 户 创建 而 非 企业 ， 但 是 搭建 平台 需要 投入 运营 、 技 术 和 人 力 成 本 ， 所 以 平台 拥有 对 数据 的 所 有 权 、 使 用 权 和 分 发 权 。 
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并 且 败 诉 的 概率 相当 高 。 


1.3 ”网 络 乳 虫 的 基本 议题 

对 于 网 络 拒 虫 技 术 的 学 习 ， 其 他 教学 很 少 有 从 整体 结构 来 说 的 ， 多 数 是 直接 放出 某 部 分 代码 。 这 样 的 方法 会 使 初学 者 摸 不 着 头脑 : 就 好 像 是 盲人 摸 象 ， 有 人 摸 到 的 是 象 腿 ， 以 为 是 一 根 大 柱子 ; BAR 
到 的 是 大 象 耳 打 ， 以 为 是 一 把 大 蒲 扇 等 。 因 此 ， 在 开始 第 一 个 怜 虫 之 前 ， 本 书 先 从 宏观 角度 出 发 说 清楚 两 个 问题 : 

: Python fe x 85 3542 3 E HE AY? 

三 个 流程 的 技术 实现 是 什么 ? 


值得 说 明 的 是 ， 本 书 选择 了 Python 3 作为 开发 语言 ， 现 在 Python 最 新 版 为 python 3.7. Python 2 的 读者 可 以 在 本 书 代码 的 基础 上 稍 加 改动 ， 用 Python 2 运行 。 值 得 注意 的 是 ，Python 2 即将 在 
2020 年 1 月 1 日 停止 支持 ， 因 此 建议 初学 者 直接 安装 Python 3 进行 学 习 。 


由 于 本 书 的 潜在 读者 多 数 使 用 Windows 操 作 系统 ， 因 此 本 书 大 部 分 实例 都 是 基于 Windows 编 写 和 运行 的 。 如 果 使 用 的 是 Linux 和 Mac Os 操 作 系统 ， 在 搭建 好 Python 平台 之 后 也 可 以 直接 运行 本 书 中 的 
代码 。 


1.3.1 “Python 把 虫 的 流程 


网 络 他 虫 的 流程 其 实 非常 简单 ， 主 要 可 以 分 为 三 部 分 : (1) 获取 网 页 ; (2) 解析 网 页 (提取 数据 ) ; (3) 存储 数据 。 


AH pir Id va 


获取 网 页 M apu 存储 数据 
FE AA SN TH 


(1) 获取 网 页 就 是 给 一 个 网 址 发 送 请 求 ， 该 网 址 会 返回 整个 网 页 的 数据 。 类 似 于 在 浏览 器 中 键入 网 址 并 按 回 车 键 ， 然 后 可 以 看 到 网 站 的 整个 页 面 。 
(2) 解析 网 页 就 是 从 整个 网 页 的 数据 中 提取 想 要 的 数据 。 类 似 于 你 在 页 面 中 想 找到 产品 的 价格 ， 价 格 就 是 你 要 提取 的 数据 。 


(3) 存储 数据 也 很 容易 理解 ， 就 是 把 数据 存储 下 来 。 我 们 可 以 存储 在 csv 中 ， 也 可 以 存储 在 数据 库 中 。 


1.3.2 三 个 流程 的 拷 术 实现 
下 面 列 出 三 个 流程 的 技术 实现 ， 括 号 里 是 对 应 的 章节 。 
1. 获 取 网 页 
获取 网 页 的 基础 技术 : requests、urllib 和 selenium (3&4) 。 
获取 网 页 的 进 阶 技术 : 多 进程 多 线程 抓 取 (8) 、 登 录 抓 取 (12) 、 突 破 IP 封 禁 (9) 和 使 用 服务 器 抓 取 (12) 。 
2. 解 析 网 页 
解析 网 页 的 基础 技术 : re 正则 表达 式 、BeautifulSoup 和 Ixml (5) 。 
解析 网 页 的 进 阶 技术 : 解决 中 文 乱码 (10) 。 
3. 存 储 数 据 


存储 数据 的 基础 技术 : 存 入 txt 文 件 和 存 入 csv 文 件 (6) 。 
存储 数据 的 进 阶 技术 : 存 入 MySQL 数 据 库 和 MongoDB 数 据 库 (6) 。 
除 此 之 外 ， 第 7 章 介绍 Scrapy 有 息 申 框架， 第 13 章 也 会 介绍 分 布 式 有 息 虫 。 


本 书 的 使 用 方法 : 第 1 章 到 第 7 章 是 网 络 胞 虫 的 基础 ， 建 议 大 家 按 顺 序 读 ; 第 8 章 到 第 13 章 是 进 阶 部 分 ， 大 家 可 以 选择 自己 感 兴趣 的 内 容 跳跃 阅读 。 之 后 可 以 阅读 第 14 章 到 第 17 章 ， 通 过 项 目 实 践 消化 和 
吸收 Python 肥 虫 的 知识 。 


如 果 对 于 上 述 技术 不 熟悉 的 读者 也 不 必 担 心 ， 本 书 将 会 对 其 中 的 技术 进行 讲解 ， 力 求 做 到 深入 浅 出 。 


第 2 章 So TIER 


笔者 是 一 个 喜欢 学 习 的 人 ， 自 学 了 各 方面 的 知识 ， 总 结 发 现 : 学 习 的 动力 来 自 于 兴趣 ， 兴 趣 则 来 自 于 动手 做 出 成 果 的 快乐 。 因 此 ， 笔 者 特意 将 动手 的 乐趣 提前 。 在 第 2? 章 ， 读 者 就 可 以 体会 到 通过 完成 一 
个 简单 的 Python 网 络 爬 虫 而 带 来 的 乐趣 。 和 希望 这 份 喜悦 能 让 你 继续 学 习 本 书 的 其 他 内 容 。 


本 章 主 要 介绍 如 何 安 装 Python 和 编辑 器 Jupytef、Python 的 一 些 基础 语法 以 及 编写 一 个 最 简单 的 Python 网 络 爬 来 。 


2.1 搭建 Python 平台 


Python 是 一 种 计算 机 程序 语言 ， 由 于 其 简洁 性 、 易 学 性 和 可 扩展 性 ， 已 成 为 最 受 欢迎 的 程序 语言 之 一 。 在 2016 年 最 受 欢迎 的 编程 语言 中 ，Python 已 经 超过 C+ + 排名 第 3 位 。 另 外 ， 由 于 Python 拥有 强 
大 而 丰富 的 库 ， 因 此 可 以 用 来 处 理 各 种 工作 。 


在 网 络 爬 虫 领域 ， 由 于 Python 简单 易学 ， 又 有 丰富 的 库 可 以 很 好 地 完成 工作 ， 因 此 很 多 人 选择 Python 进行 网 络 聆 虫 。 


2.1.1 Python 的 安装 


Python 的 安装 主要 有 两 种 方式 : 一 是 直接 下 载 Python 安 装 包 安装 ， 二 是 使 用 Anaconda 科 学 计算 环境 下 载 Python.。 


根据 笔者 的 经 验 ， 这 两 种 方式 也 对 应 着 用 Python 来 聆 虫 的 两 类 人 和 群 : 如 果 你 希望 成 为 Python 开发 人 员 或 者 爬虫 工程 师 ， 笔 者 推荐 你 直接 下 载 Python 安装 包 ， 配 合 着 Pycharm 编 辑 器 ， 这 将 提升 你 的 开 
发 效率 ; 如 果 你 希望 成 为 数据 分 析 师 或 者 商业 分 析 师 ， 爬 虫 只 是 方便 之 后 做 数据 分 析 ， 笔 者 推荐 你 使 用 Anaconda， 配 合 着 自 带 的 Jupyter Notebook， 这 会 提升 你 的 分 析 效率 。 


由 于 网 络 疏 虫 需要 较 多 的 代码 调试 ， 因 此 我 推荐 初学 者 使 用 Anaconda。 因 为 Anaconda 除 了 包含 了 Python 安装 包 ， 还 提供 了 众多 科学 计算 的 第 三 方 库 ， 如 Numpy、Sscipy、Pandas 和 Matplotlib 等 ， 
以 及 机 器 学 习 库 ， 如 Scikit-Learn 等 。 而 且 它 并 不 妨碍 你 之 后 使 用 Pycharm 开 发 。 


请 读者 选择 一 种 下 载 ， 不 要 两 种 都 用 ， 不 然 会 带 来 Python 版 本 管理 的 混乱 。 
第 一 种 方法 : Anaconda 的 安装 十 分 简单 ， 只 需 两 步 即 可 完成 。 下 面 将 介绍 在 Windows 下 安装 Anaconda 的 步骤 ， 在 Mac 下 的 安装 方法 与 此 类 似 。 


步骤 01 下 载 Anaconda。 打 开 Anaconda 官 方 网 站 下 载 页 面 https://www.anaconda.com/download/， 下 载 最 新 版 的 Anaconda。 如 果 在 国内 访问 ， 推 荐 使 用 清华 大 学 的 镜 


像 https://mirrots.tuna.tsinghua.edu.cn/anaconda/atchive/。 如 图 2-1 所 示 。 


Anaconda 5.3 For Windows Installer 


Python 3.7 version Python 2.7 version 


+$ Download 


64-Bit Graphical Installer (631 MB) (7 64-Bit Graphical Installer (5/9 MB) 
32-BIt Graphical Installer (509 MB) 32-Bit Graphical Installer (457 MB) 


图 2-1 选择 下 载 的 Python 版 本 


步骤 02 ”安装 Anaconda。 双 击 打 开 Anaconda 安 装 文件 ， 就 像 安 装 普通 软件 一 样 ， 直 接 单 击 Install 安 装 即 可 。 注 意 ， 在 图 2-2 所 示 的 对 话 框 中 义 选 第 一 个 和 第 二 个 复 选 框 。 按 照 提示 操作 后 ， 安 装 即 可 。 


© Anaconda3 5.3.0 (64-bit) Setup 


p" Advanced Installation Options 
£) ANACONDA Customize how Anaconda integrates with Windows 


Advanced Options 


[7] Add Anaconda to my PATH environment variable 


Not recommended. Instead, open Anaconda with the Windows Start 
menu and select "Anaconda (64-bit)'. This “add to PATH" option makes 
Anaconda get found before previously installed software, but may 
cause problems requiring you to uninstall and reinstall Anaconda. 


[^| Register Anaconda as my default Python 3.7 
This will allow other programs, such as Python Tools for Visual Studio 


PyCharm, Wing IDE, PyDev, and MSI binary packages, to automatically 
detect Anaconda as the primary Python 3.7 on the system. 


Anaconda, Inc. - 
o <Bak | instal | 


图 2-2 32 Anaconda 


第 二 种 方法 : 使 用 Python 安装 包 方 法 也 非常 简单 。 下 面 将 介绍 在 Windows 下 安装 的 步骤 ， 在 Mac 下 的 安装 方法 类 似 。 


步骤 01 下 载 Python。 打 开 Python 下 载 页 面 https://www.python.org/downloads/ ， 下 载 最 新 版 的 Python， 如 图 2-3 所 示 。 


gl python’ 


About Downloads Documentation Community 


Download the latest version for Windows 


Download Python 3.7.0 
Looking for Python with a different OS? Python for Windows, 
Linux/UNIX, Mac OS X, Other 
Want to help test development versions of Python? Pre-releases 


Looking for Python 2.7? See below for specific releases 


图 2-3 ”点 击 下 载 Python 


PUEO2 ”安装 Python。 双 击 打开 Python 安装 文件 ， 选 择 Add Python 3.7 to PATH， 之 后 单 击 InstalNow 安 装 即 可 。 


C Python 3.7.0 (64-bit) Setup 


Install Python 3.7.0 (64-bit) 
Select Install Now to install Python with default settings, or choose 
Customize to enable or disable features. 


Install Now 


C:\Users\santostang\AppData\Local\Programs\Python\Python37 


Includes IDLE, pip and documentation 
Creates shortcuts and file associations 


— Customize installation 
Choose location and features 


for Install launcher for all users (recommended) 
wind OWS M] Add Python 3.7 to PATH 


图 2-4 ”安装 Python 


pip 是 Python 安装 各 种 第 三 方 库 (package) ALA, 


对 于 第 三 方 库 不 太 理解 的 读者 ， 可 以 将 库 理 解 为 供用 户 调用 的 代码 组 合 。 在 安装 某 个 库 之 后 ， 可 以 直接 调用 其 中 的 功能 ， 使 得 我 们 不 用 自己 写 代 码 也 能 实现 某 个 功能 。 这 就 像 你 为 计算 机 杀毒 时 ， 会 选 
择 下 载 一 个 杀毒 软件 ， 而 不 是 自己 写 一 个 杀毒 软件 ， 直 接 使 用 杀毒 软件 中 的 杀毒 功能 来 杀毒 就 可 以 了 。 这 个 比方 中 的 杀毒 软件 就 像 是 第 三 方 库 ， 杀 毒 功能 就 是 第 三 方 库 中 可 以 实现 的 功能 ， 你 可 以 调用 第 三 
方 库 实现 某 个 功能 。 

由 于 Anaconda 或 者 Python 安装 包 自 带 了 pip， 因 此 不 用 再 安装 pip。 

在 下 面 的 例子 中 ， 我们 将 介绍 如 何 用 pip 安 装 第 三 方 库 bs4， 它 可 以 使 用 其 中 的 BeautifulSoup 解 析 网 页 。 


步骤 01 ”打开 cmd.exe， 在 Windows 中 为 cmd， 在 Mac 中 为 tetminal。 在 Windows 中 ，cmd 是 命令 提示 符 ， 输 入 一 些 命令 后 ，cmd.exe 可 以 执行 对 系统 的 管理 。 单 击 “开始 ”按钮 ， 在 “搜索 程序 和 文件 ”文本 


框 中 输入 cmd 后 按 回 车 键 ， 系 统 会 打开 命令 提示 符 窗口 ， 如 图 2-5 所 示 。 在 Mac 中 ， 可 以 直接 在 “应 用 程序 ”中 打开 terminal 程 序 。 


FE (1) 


EN cmd.exe 


图 2-5 搜索 cmd 


步骤 02 安装 bs4 的 Python 库 。 在 cmd 中 键入 pip install bs4 后 按 回 车 键 ， 如 果 出 现 successfully installed， 就 表示 安装 成 功 ， 如 图 2-6 所 示 。 


a GLE: C:\Windows\system32\cmd.exe 


icrosoft Windows [jf 6.1.7600] aa : 
Hay Pr <c?) 28H9 Microsoft Corporation, 4r. E83 PIE ll « [ 


>: Wsers‘Administrator>pip install bs4 

ollecting bs4 

Using cached bs4-H.BH8.1.tar.gyz 
Requirement already satisfied: beautifulsoup4 in c:'programdata'*anaconda3'*lib*si 
te-packages “from bs4) 

uilding wheels for collected packages: bs4 

Running setup.py bdist wheel for bs4 ... done 

Stored in directory: C:'*sersHüdministrator^HppData'*Local*-pip^GCache"'wheels'*84 

57 w«4*9eH9d9d5adedeZeeic'7h7e8775ha3f bhb4d67c4f 946f Be4f 11 
Successfully built bs4 

Installing collected packages: bs4 

Successfully installed bs4-H.H.1 


图 2-6 ”安装 bs4 库 


除了 bs4 这 个 库 ， 之 后 还 会 用 到 requests 库 、lxml 库 等 其 他 第 三 方 库 ， 帮 助 我 们 更 好 地 进行 网 络 肛 虫 。 正 因为 这 些 第 三 方 库 的 存在 ， 才 使 得 Python 在 息 虫 领域 越 来 越 方便 、 越 来 越 活跃 。 


2.1.3 “使 用 编辑 器 Jupyter 编 程 
如 果 你 使 用 Anaconda 安 装 的 Python， 那 么 可 以 使 用 Anaconda 自 带 的 Jupyter Notebook 编 程 ; 如 果 你 使 用 Python 安装 包 下 载 的 Python ， 下 一 节 会 介绍 Pycharm 的 安装 方法 。 为 了 方便 大 家 学 习 和 调 
试 代 码 ， 本 书 推 荐 使 用 Anaconda 自 带 的 Jupyter Notebook。 下 面 将 介绍 Jupyter Notebook 的 使 用 方法 。 


步骤 01 通过 cmd 打 开 Jupyter。 打 开 cmd， 键 入 jupyter notebook 后 按 回 车 键 ， 浏览 器 启动 Jupytet 界 面 ， 地 址 默认 为 http://localhost:8888/tree， 如 图 2-7 所 示 。 


ZER: C:\Windows\system32\cmd.exe = jupyter noteboo ro" 一 一 


Microsoft Windows IL]; 6.1.?688] 本 i 
hE3 PTS Cc) 28H89 Microsoft Corporation, 保留 所 有 XEM 一 


G:MisersHüdministrator»juputer notebook 

[II 69:49:37.638 Motebookfüppl Serving notebooks from local directory: C:sers^Ad 
ministrator 

CI 89:49:37.638 Hotebookfippl © active kernels 

CI 89?:49:37.638 NMotebookApp!] Ihe Jupyter Notebook is running at: http://localhos 
t :-8888/?token-2d9d52e2597538582H86a4a472a8974d6f 7953£ 7d99 df 6d 3e Bf 2 

[I H7:49:37.638 MotebookHüppl Use Control-C to stop this server and shut down all 
| kernels Ctwice to skip confirmation?. 

[C 89:49:37.638 Notebookfpp] 


Copy/paste this URL into your browser when you connect for the first time, 
to login with a token: 
http-^/^/localhost:8888^7?token-d7d52e725753H58Z2H5a4da4/72a874dbf /95SF 7d 77 df 6d 
3eBF2 
LI 89:49:48.484 MotebookHppl Accepting one-time-token-authenticated connection f 
rom -:1 


图 2-7 启动 Jupyter 的 主 界 面 


步骤 02 创建 Python 文 件 。 这 时 浏览 器 会 开启 一 个 页 面 ， 在 页 面 中 选择 想 创 建文 件 的 文件 夹 ， 单 击 右上 角 的 New 按 钮 ， 从 下 拉 列 表 中 选择 Python 3 作为 希望 启动 的 Notebook 类 型 ， 如 图 2-8 所 示 。 


select items to perform actions on them 
Text File 


Folder 


ri 


ITT 


Python 2 


Python 3 


Ej2-8 ”选择 Python 3 


步骤 03 在 新 创建 的 文件 中 编写 Python 程序 。 键 入 ptint(hello world!) 后 ， 可 以 按 Shift+Entet 快 捷 键 执行 刚刚 的 代码 ， 结 果 如 图 2-9 所 示 。 


Jupyter Untitled1 (autosavea 


In [1]: print (hello world!’ 


hello world! 


图 2-9 ”编写 Python 程序 


为 什么 本 书 使 用 Jupyter Notebook 学 习 和 编写 Python 脚本 呢 ? 


Ei, Jupyter Notebook 的 交互 式 编程 可 以 分 段 运行 Python， 对 于 网 络 爬 虫 这 种 分 阶段 (获取 网 页 -解析 网 页 -存储 数据 ) 运行 的 脚本 来 说 ， 在 写 代 码 和 测试 阶段 可 以 边 看 边 写 ， 可 以 加 快 调试 代码 的 
速度 ， 非 常 适合 debug (代码 纠 错 ) 。 


其 次 是 展示 ，Jupyter Notebook 能 够 把 运行 和 输出 的 结果 保存 下 来 ， 下 次 打开 这 个 Notebook 时 也 可 以 看 到 之 前 运行 的 结果 。 除 了 可 以 编写 代码 外 ，Jupyter 还 可 以 添加 各 种 元 素 ， 比 如 图 片 、 视 频 、 
链接 等 ， 同 时 还 支持 Markdown。 


在 完成 代码 之 后 ， 还 可 以 在 Jupyter 左 上 角 点 击 File> Download as» Python， 下 载 为 .py 文件 ， 就 可 以 放 到 其 他 编辑 器 里 运行 了 。 


如 果 你 对 Python 的 其 他 自 定义 功能 有 要 求 的 话 ， 推 荐 下 载 Jupyter 的 插件 nbextensions。 有 具体 指引 可 以 到 笔者 知 乎 或 本 书 官 网 www.santostang.com 了 解 。 


2.1.4 ”使 用 编辑 器 Pycharm 编 程 


如 果 你 使 用 Python 安装 包 下 载 的 Python ， 推 荐 选择 Pycharm 编 辑 器 。 


步骤 01 下 载 Pycharm。 打 开 Pycharm 下 载 页 面 https://www.jetbrains.com/pycharm/download， 下 载 Community 版 本 ， 如 图 2-10 所 示 。 


Download PyCharm 


Windows macOs Linux 


Professional Community 
Full-featured IDE Lightweight IDE 

for Python & Web for Python & Scientific 
development development 


DOWNLOAD DOWNLOAD 


Free trial Free, open-source 


图 2-10 ”点 击 下 载 Pycharm 


步骤 02 安装 Pycharm。 双 击 打 开 Pycharm 安 装 文件 ， 根 据 自 己 电脑 选择 32bit 还 是 64bit， 记 得 在 Create Associations 4A .py, ZKI A, to A2-11 Pf wR. 


Bs PyCharm Community Edition Setup 


Installation Options 
Configure your PyCharm Community Edition installation 


Create Desktop Shortcut 
| |32-bitlauncher  [/]64-bit launcher 


Create Associations 


bM] ,py 


| |Download and install JRE x86 by JetBrains 


图 2-11 安装 Pycharm 


步骤 03 ”打开 Pycharm。 在 开始 页 面 ， 选 择 自己 喜欢 的 主题 ， 如 图 2-12 所 示 。 


Bd Customize PyCharm 


Ul Themes — Featured plugins 


Set Ul theme 


project bp fib.py project ) Te fib.py | 
i fib.p = fib.py 


def fib(n): 
a, b=0, 1 
while a < n: 
print(a, end-' ') 
a, b-b,at*b 
print()] 


E Breakpoints : fib(1000) Breakpoints 


T 一 E 
v viu Python Line Breakpoint v © Python Line Breakpoint 
Vv fib.py:5 
E 一 Python Exception Breakpo v @ Python Exception Breakpoi 
V. An - - Any exception 
BI Django Exception Breakpoi 


J| theme can be changed later in Sett 


图 2-12 ”选择 Pycharm 主 题 


随后 点 击 Cteate New Project 创 建 一 个 新 的 项 目 ， 如 图 2-13 所 示 。 


Ed Welcome to PyCharm — X 


PyCharm 


图 2-13 ”创建 一 个 Pycharm 项 目 


选择 好 存储 项 目的 位 置 ， 这 里 我 给 项 目 起 的 名 称 是 “WebScraping” ， 你 可 以 按照 自己 的 需求 存放 项 目地 址 ， 如 图 2.14 所 示 。 


Bd New Project 


Create 


图 2-14 ”存储 Pycharm 项 目 


步骤 03 进入 Pycharm 页 面 后 ， 会 看 到 如 下 页 面 。 这 时 ， 点 击 File>New>Python File， 并 填 上 python 文 件 名 ,例如 “test”。 创 建 完 test.py 文 件 后 ， 打 开 test.py， 键 入 print('hello world!)。 选 中 代码 ， 右 键 选 


Run ‘test”， 即 可 得 到 结果 ， 如 图 2-15 所 示 。 


WebScraping 


Project w 


WebScraping 


Ctri+Shift+F10 


2-15 运行 Python 文件 


Python 是 一 种 非常 简单 的 语言 ， 最 简单 的 就 是 print， 使 用 print 可 以 打印 出 一 系列 结果 。 例 如 ， 键 入 print ("Hello World!") ， 打 印 的 结果 如 下 ( 同 图 2-9) : 


In [1]:print ("Hello World!") 


Hello World! 


另外 ，Python 要 求 严格 的 代码 缩 进 ， 以 Tab 键 或 者 4 个 空格 进行 缩 进 ， 代 码 要 按照 结构 严格 缩 进 ， 例 如 : 


AnA 


In [2]:x 
Lf 


= 1 
x = 1: 
print ("Hello World!") 


Hello World! 


如 果 需 要 注释 某 行 代码 ， 那 么 可 以 在 代码 前 面 加 上 “#”， 例如: 


In [3] :# 在 前 面 加 上 #， 代 表 注 释 
print ("Hello World!") 


Hello World! 


2.2.2 ”数据 类 型 


Python 是 面向 对 象 (object oriented) 的 一 种 语言 ， 并 不 需要 在 使 用 之 前 声明 需要 使 用 的 变量 和 类 别 。 下 面 将 介绍 Python 的 4 种 数据 类 型 。 
1. 字 符 串 (string) 


字符 串 是 常见 的 数据 类 型 ， 一 般 用 来 存储 类 似 “ 句 子 ” 的 数据 ， 并 放 在 单 引 号 C) 或 双 引 号 CU) 中 。 如 果 要 连接 字符 串 ， 那 么 可 以 简单 地 加 起 来 。 


In [4]:stringl = "Python Web Scraping' 
string2 = "by Santos" 

string3 = stringl + " " + string2 
print (string3) 


Python Web Scraping by Santos 


如 果 字 符 串 包含 单 引 号 C) 和 双 引 号 (") ， 应 该 怎么 办 ”可 以 在 前 面 加 上 右 斜 杠 (\) ， 例 如 以 下 案例 : 


In [5]:string = "I\'m Santos. I love \"python\"." 
print (string3) 


I'm Santos. love" python". 


2. 数 字 (Number) 


数字 用 来 存储 数值 ， 包 含 两 种 常用 的 数字 类 型 : 整数 (int) 和 浮 点 数 (float) ， 其 中 浮 点 数 由 整数 和 小 数 部 分 组 成 。 两 种 类 型 之 间 可 以 相互 转换 ， 如 果 要 将 整数 转换 为 浮 点 数 ， 就 在 变量 前 加 上 float; 
如 果 要 将 浮 点 数 转换 为 整数 ， 就 在 变量 前 加 上 int， 例 如 : 


In [6]:intl = 7 

floatl = 7.5 

trans int = int (floatl1) 
print (trans int) 


还 有 其 他 两 种 复杂 的 数据 类 型 ， 即 长 整数 和 复数 ， 由 于 不 常用 到 ， 感 兴趣 的 读者 可 以 自己 学 习 。 


3. 列 表 (list) 


如 果 需 要 把 上 述 字符 串 和 数字 囊括 起 来 ， 就 可 以 使 用 列表 。 列 表 能 够 包含 任意 种 类 的 数据 类 型 和 任意 数量 。 创 建 列表 非常 容易 ， 只 要 把 不 同 的 变量 放 入 方 括号 中 ， 并 用 逗号 分 隔 即 可 ， 例 如 


In [7]:listl = ['Python', 'Web', 'Scrappy'] 
list2 = [1, 2, 3, 4, 5] 
list3 = ["a", 2, "er; 4] 


怎么 访问 列表 中 的 值 呢 ? 可 以 在 方 括号 中 标明 相应 的 位 置 索 引进 行 访问 ,与 一 般 认 知 不 一 样 的 是 ， 索 引 从 0 开始 ， 例 如 : 


In [8]:print ("list1[0]: " , list1[0]) 
print ("list2[1:3]: " , list2[1:3]) 


list1[0]:Python 
list2[1:3]:[2, 3] 


如 何 修改 列表 中 的 值 呢 ? 可 以 直接 为 列表 中 的 相应 位 置 赋予 一 个 新 值 ， 例 如 : 


In [9]:listl[1] = "new" 
print (listl) 


[Python','new','Scrappy'] 


如 果 想 要 给 列表 添加 值 呢 ? 可 以 用 append() 方 法 ， 例 如 : 


In [10] :1Listl.appenadq("by Santos") 
print (listl) 


[Python','new','Scrappy','by Santos'] 


4. 字 典 (Dictionaries) 


字典 是 一 种 可 变 容 器 模型 ， 正 如 其 名 ， 字 典 含 有 "c" (直译 为 键 值 ，key) 和 值 (value) ， 使 用 字典 就 像 是 自己 创建 一 个 字典 和 查 字 典 的 过 程 。 每 个 存储 的 值 都 对 应 着 一 个 键 值 key，key 必 须 唯 一 ， 
但 是 值 不 需要 唯一 。 值 也 可 以 取 任 何 数据 类 型 ， 例 如 : 
In [11]:namebook = ("Name": "Alex", "Age": 7, "Class": "First"} 


print (namebook["Name"]) # 可 以 把 相应 的 键 值 放 入 方 括号 ， 提 取 值 
print (namebook) # 也 可 以 直接 输出 整个 字典 


Alex 


{‘Name':'Alex','Age':7,'Class':'First'} 


如 何 遍历 访问 字典 中 的 每 一 个 值 呢 》 这 里 需要 用 到 字典 和 循环 的 结合 ， 例 如 : 


In [12] :# 循 环 提取 整个 qictionary 的 key 和 value 
for key, value in namebook.items(): 
print (key, value) 


Name Alex 
Age 7 
Class First 


如 果 想 修改 字典 中 的 值 或 者 加 入 新 的 键 值 呢 ?可 以 直接 修改 和 加 入 ， 例 如 : 


In [13]: # 直接 修改 值 和 添加 一 个 键 什 
namebook["Name"] = "Tom" 
namebook ["Gender"] = "M" 
print (namebook) 


{‘Name':'Tom','Age':7,'Class':'First’,'Gender':'M'} 


2.23 ”条 件 语句 和 循环 语句 


条 件 语句 可 以 使 得 当 满 足 条 件 的 时 候 才 执行 某 部 分 代码 。 条 件 为 布尔 值 ， 也 就 是 只 有 True 和 False 两 个 值 。 当 i 例 | 断 条 件 成 立时 才 执行 后 面 的 语句 ; 当 条 件 不 成 立 的 时 候 ， 执 行 else 后 面 的 语句 ， 例 如 


In [14] :book = "python" # 定 义 字 符 串 book 


if book == "python": ，# 浏 断 变量 是 否 为 "Python' 

print ("You are studying python.")  # 系 件 成 立时 输出 
else: 

print ("Wrong.") # 条 件 不 成 立时 输出 


You are studying python. 


如 果 需 要 判断 的 有 多 种 条 件 ， 就 需要 用 到 elif， 例 如 : 


In [15] :book = "java" # 定 义 字 符 串 book 
if book == "python": ”# 判 断 变 量 是 否 为 'python' 
print ("You are studying python.") ” # 条 件 成 立时 输出 
elif book == "java":  # 浏 断 变 量 是 否 为 "java ' 
print ("You are studying java.") # 条 件 成 立时 输出 


else: 
print ("Wrong.") # 条 件 不 成 立时 输出 


You are studying java. 
Python 的 条 件 语句 注意 不 要 少 了 冒号 (:) 。 
循环 语句 能 让 我 们 执行 一 个 代码 片段 多 次 ， 循 环 分 为 for 循 环 和 while 循 环 。 


for 循 环 能 在 一 个 给 定 的 顺序 下 重复 执行 ， 例 如 


In [16]:citylist = ["Beijing", "Shanghai", "Guangzhou"] 
for eachcity in citylist: 
print (eachcity) 


Beijing 
Shanghai 
Guangzhou 


除了 对 列表 进行 直接 循环 ， 有 时 我 们 还 会 使 用 range(0 进 行 循环 ， 首 先 用 len(citylist) 得 到 列表 的 长 度 为 9， 然后 range(3) 会 输出 列表 [0,1,2]， 从 而 实现 循环 ， 得 到 和 上 面 一 样 的 结果 。 例 如 : 


In [17]:citylist = ["Beijing", "Shanghai", "Guangzhou"] 
for i in range (len(citylist)): 
print (citylist[i]) 


Beijing 
Shanghai 
Guangzhou 


while 循 环 能 不 断 重复 执行 ， 只 要 能 满足 一 定 条 件 ， 例 如 : 


In [18]:count = 
while count 
print ( 
couni 


0 
« 3: 

count) # 打 印 出 0,1,2 

+= 1 45 count = count + 1 一 样 


2.2.4 RAŽI 
在 代码 很 少 的 时 候 ， 我 们 按照 逻辑 写 完 就 能 够 很 好 地 运行 。 但 是 如 果 代 码 变 得 庞大 复杂 起 来 ， 就 需要 自己 定义 一 些 函数 (Functions) ， 把 代码 切 分 成 一 个 个 方块 ， 使 得 代码 易 读 ， 可 以 重复 使 用 ， 并 且 
容易 调整 顺序 。 


其 实 Python 融 自 市 了 很 多 函数 ， 例 如 下 面 的 um0 和 abs(0 冰 数 ， 我 们 可 以 直接 调用 。 


In [19]: print (sum([1,2,3,4])) # 对 系列 进行 求 和 计算 
print (abs(-1)) # 返回 数字 的 绝对 值 
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此 外 ， 我 们 也 可 以 自己 定义 函数 。 一 个 函数 包括 输入 参数 和 输出 参数 ，Python 的 函数 功能 可 以 用 y=x+ 1 的 数学 函数 来 理解 ， 在 输入 x=2 的 参数 时 ，y 输 出 3。 但 是 在 实际 情况 中 ， 某 些 函 数 输入 和 输出 参 
数 可 以 不 用 指明 。 下 面 定 义 一 个 函数 : 
In [20] :# 定 义 函 数 

def calulus (x): 


y=x+1 
return y 


# 调 用 函数 
result = calulus (2) 
print (result) 


参数 必须 要 正确 地 写 入 函数 中 ， 函 数 的 参数 也 可 以 为 多 个 ， 也 可 以 是 不 同 的 数据 类 型 ,例如 可 以 是 两 个 参数 ,分别 是 字符 串 和 列表 型 的 。 


In [21] :# 定 义 函 数 


def fruit function (fruitl, fruit2): 


fruits = fruitl + " " + fruit2[0] +" " + fruit2[1] 
return fruits 

# 调 用 函数 

result = fruit function("apple", ["banana", "orange"]) 


print (result) 


apple banana orange 


2.2.5 ”面向 对 象 编程 


在 介绍 面向 对 象 编程 之 前 先 说 明 面 向 过 程 编程 。 面 向 过 程 编程 的 意思 是 根据 业务 逻辑 从 上 到 下 写 代 码 ， 这 个 容易 被 初学 者 接受 ,按照 逻辑 需要 用 到 哪 段 代码 写 下 来 即 可 。 


随 着 时 间 的 推移 ， 在 编程 的 方式 上 又 发 展 出 了 遂 数 式 编程 ， 把 某 些 功能 封装 到 函数 中 ， 需 要 用 时 可 以 直接 调用 ， 不 用 重复 撰写 。 这 也 是 上 面 提 到 的 遂 数 式 编程 ， 函 数 式 的 编程 方法 好 处 是 节省 了 大 量 时 
间 。 


接 下 来 ， 又 出 现 了 面向 对 象 编程 。 面 向 对 象 编程 是 把 函数 进行 分 类 和 封装 后 放 入 对 象 中 ， 使 得 开发 更 快 、 更 强 。 例 如 : 


In [22]:class Person: # 创建 类 
# init ”() 方 法 称 为 类 的 构造 方法 ， 注 意 是 左右 各 是 两 个 下 划 线 
def init (self, name, age): 


self.name = name 
self.age = age 


def detail (self): # 通 过 self 调 用 被 封装 的 内 容 
print (self.name) 
print (self.age) 


obj1 = Person('santos', 18) 
objl.detail() # Python 将 obj1 传 给 self 参 数 ， 即 : 
# obj1.detail (opbj1)， 此 时 内 部 self 二 obj1l 


santos 
18 


看 到 这 里 ， 也 许 你 有 疑问 ， 要 实现 上 述 代 码 的 结果 ， 使 用 函数 式 编程 不 是 比 面向 对 象 编程 更 简单 吗 ” 例 如 ， 如 果 我 们 使 用 函数 式 编 程 ， 可 以 写成 


In [23]:def detail (name, age) : 
print (name) 
print (age) 

objl = detail('santos', 18) 


santos 


18 


此 处 确实 是 函数 式 编 程 更 容易 。 使 用 遂 数 式 编程 ， 我 们 只 需要 写 清楚 输入 和 输出 变量 并 执行 函数 即 可 ;而 使 用 面向 对 象 的 编程 方法 ， 首 先 要 创建 封装 对 象 ， 然 后 还 要 通过 对 象 调用 被 封装 的 内 容 ， 岂 不 


是 很 麻烦 ? 
但 是 ， 在 某 些 应 用 场景 下 ， 面 向 对 象 编程 能 够 显示 出 更 大 的 优势 。 
如 何 选 择 浮 数 式 编程 和 面向 对 象 编程 呢 ? 可 以 这 样 进行 选择 ， 如 果 各 个 函数 之 间 独 立 且 无 共用 的 数据 ， 就 选用 遂 数 式 编 程 ， 如 果 各 个 函数 之 间 有 一 定 的 关联 性 ， 那 么 选用 面向 对 象 编程 比较 好 。 


下 面 简单 介绍 面向 对 象 的 两 大 特性 : 封装 和 继承 。 


1. 封 装 


封装 ， 顾 名 思 义 就 是 把 内 容 封装 好 ， 再 调用 封装 好 的 内 容 。 封 装 分 为 两 步 : 
第 一 步 为 封装 内 容 。 

第 二 步 为 调用 被 封装 的 内 容 。 

(1) 封装 内 容 


下 面 为 封装 内 容 的 示例 。 


In [24] :class Person: # 创建 类 
def init (self, name, age): 
self.name = name 
self.age = age 


obj1 = Person('santos', 18) 
# 将 "santos" 和 18 分 别 封装 到 obj1 及 self) name 和 age 属性 


self 在 这 里 只 是 一 个 形式 参数 ， 当 执行 obj1=Person( santos',18) 时 ，self 等 于 obj1， 此 处 将 santos 和 18 分 别 封装 到 obj1 及 self 的 name 和 age 属性 中 。 结 果 是 obj1 有 name 和 age 属性 ， 其 中 


name="santos", age=18, 
(2) 调用 被 封装 的 内 容 
调用 被 封装 的 内 容 时 有 两 种 方式 : 通过 对 象 直接 调用 和 通过 self 间 接 调用 。 


通过 对 象 直接 调用 obj1 对 象 的 name 和 age 属性 ， 代 码 如 下 : 


In [25]:class Person: 4 创建 类 
def init (self, name, age): 
self.name = name 
self.age = age 


obj1 = Person('santos', 18) # 将 "santos" 和 18 分 别 封装 到 
#objl 及 self 的 name 和 age 属性 


print (obj1.name) # 直接 调用 obj1 对 象 的 name 属 性 
print (objl.age) # 直接 调用 obj1 对 象 的 age 属 性 
santos 
18 


通过 self 间 接 调 用 时 ，Python 默 认 会 将 obj1 传 给 self 参 数 ， 即 obj1.detail(obj1)。 此 时 方法 内 部 的 self=obj1， 即 self.name='santos'，self.age=18， 代 码 如 下 : 


In [26]:class Person: 4 创建 类 

def init  (self,name,age): 
self.name = name 
self.age = age 


def detail (self): # 通 过 self 调 用 被 封装 的 内 容 
print (self.name) 
print (self.age) 


obj1 = Person('santos', 18) 
objl.detail() # Python 将 obj1 传 给 self 参 数 ， 即 obj1.detail (obj1)， 
# 此 时 内 部 self==obj1 


santos 


18 


上 述 例 子 定 义 了 一 个 Person 的 类 。 在 这 个 类 中 ， 可 以 通过 各 种 浮 数 定义 Person 的 各 种 行为 和 特性 ， 要 让 代码 显得 更 加 清晰 有 效 ， 就 要 在 调用 Person 类 各 种 行为 的 时 候 也 可 以 随时 提取 。 这 比 仅 使 用 遂 
数 式 编程 更 加 方便 。 


面 对 对 象 的 编程 方法 不 会 像 平时 按照 执行 流程 去 思考 ， 在 这 个 例子 中 ， 是 把 Person 这 个 类 型 视 为 一 个 对 象 ， 它 拥有 name 和 age 两 个 属性 ， 在 调用 过 程 中 ， 让 自己 把 自己 打印 出 来 。 
综 上 所 述 ， 对 于 面向 对 象 的 封装 来 说 ， 其 实 就 是 使 用 构造 方法 将 内 容 封装 到 对 象 中 ， 然 后 通过 对 象 直接 或 self 间 接 获 取 被 封装 的 内 容 。 
2. 继 承 
继承 是 以 普通 的 类 为 基础 建立 专门 的 类 对 象 。 面 向 对 象 编程 的 继承 和 现实 中 的 继承 类 似 ， 子 继承 了 父 的 某 些 特性 ， 例 如 : 
猫 可 以 : RH. nz. We. fu. fi 
狗 可 以 : 汪汪 叫 、 吃 、 喝 、 拉 、 撤 


如 果 我 们 要 分 别 为 猫 和 狗 创 建 一 个 类 ， 就 需要 为 猫 和 狗 实 现 他 们 所 有 的 功能 ， 代 码 如 下 ， 这 里 为 伪 代 码 ， 无 法 在 Python 执行: 


In [ ]:class J: 
def WW (self): 
print ("EH") 
def !lz (self): 

# do something 
def lm (self): 
# do something 
def fi (self): 

g 
g 


# do somethin 
def $t (self) : 
# do somethin 


class 狗 : 

def ÆN (self): 
print ('YEYEMY"') 

def Mō (self): 
# do something 

def I (self): 
# do something 
def dX (self): 
g 
g 


-一 


# do somethin 
def 4 (self): 
# do somethin 


从 上 述 代 码 不 难看 出 ， 吃 、 喝 、 拉 、 撤 是 猫 狗 共同 的 特性 ， 我 们 没有 必要 在 代码 中 重复 编写 。 如 果 用 继承 的 思想 ， 就 可 以 写成 : 


动物 : 吃喝 拉 撤 
猫 : DEED ( 猫 继承 动物 的 功能 


狗 : 汪汪 叫 ( 狗 继承 动物 的 功能 


In [27]:class Animal: 
def eat (self): 


print (" p Ma " $self.name) 
def drink (self 

print ("is 入 " $self.name) 
def shit(self): 

print ("$s dy " $self.name) 
def eee ag 

print ("%s f " $self.name) 

class Cat (Animal): 

def init (self, name): 

self.name = name 
def cry(self): 

print ("EH") 


class Dog (Animal): 
def init ， (self, name) : 
self.name = name 
def cry (self): 
print ('ŒÆÆUN') 


cl = Cat(' 小 白 家 的 小 黑 猫 7) 
cl.eat () 
cl.cry() 
dl = Dog (' 胖 子 家 的 小 瘦 狗 " ) 
dl .eat () 
dl .eat () 
dl.cry() 
小 白 家 的 小 黑 猫 吃 
DER AU 
胖子 家 的 小 瘦 狗 吃 
汪汪 叫 


对 于 继承 来 说 ， 其 实 就 是 将 多 个 类 共有 的 方法 提取 到 


2.2.6 faite 


在 编程 过 程 中 ， 我 们 不 免 会 遇 到 写 出 来 的 程序 运行 错误 ， 所 以 程序 员 经 常 


try/except 语 句 来 捕获 异常 。 


父 类 中 ， 子 类 继承 父 类 中 的 方法 即 可 ， 


不 必 一 一 实现 每 个 方法 。 


try/except 使 用 try 来 检测 语句 块 中 的 错误 ， 如 果 有 错误 的 话 ，except 则 会 执行 捕获 异常 信息 并 处 理 。 以 下 是 一 个 实例 : 


In [28]: try: 


result = 5/0 # 除 以 0 会 产生 运算 错误 
except Exception as e: # 出 现 错误 会 执行 except 
print (e) # 把 错误 打印 出 来 


division by zero 


上 述 代码 首先 执行 try 里 面 的 语句 ， 除 以 0 产生 运算 错误 后 ， 


此 外 ， 如 果 我 们 并 不 想 打 印 错 误 ， 就 可 以 用 pass 空 语句 。 


In [29]: try: 

result = 5/0 # 除 以 0 会 产生 运算 错误 
except: # 出 现 错误 会 执行 except 

Pass # 空 语句 ， 不 做 任何 事情 


2.3 ”编写 第 一 个 简单 的 公 虫 


当 了 解 了 Python 的 基础 语法 后 ， 就 算 你 是 编程 小 白 ， 也 可 以 轻松 肥 取 一 些 网 站 了 。 


为 了 方便 大 家 练习 Python 网 络 胞 虫 ， 笔 者 专门 搭建 了 一 个 博客 网 站 用 于 有 息 虫 的 教学 ， 本 书 教学 部 分 的 他 虫 全 部 基于 有 息 取 笔者 的 个 人 博客 网 站 (www.santostang.com) 。 


和 框架 不 会 更 改 ， 因 此 本 书 的 网 络 怜 虫 代码 可 以 一 直 使 用 ; 


会 执行 except 里 的 语句 ， 将 错误 打印 出 来 。 在 网 络 爬 虫 中 ， 它 可 以 帮 有 我 们 处 理 一 些 无 法 获取 到 数据 报错 的 情况 。 


另 一 方面 ， 由 于 这 个 网 站 由 笔者 拥有 ， 因 此 避免 了 一 些 法 律 上 的 风险 。 


下 面 以 季 取 笔者 的 个 人 博客 网 站 为 例 获取 第 一 篇 文章 的 标题 名 称 ， 教 大 家 学 会 一 个 简单 的 拒 虫 。 


23.1 第 一 步 : 获取 页 面 


#!/usr/bin/python 
# coding: utf-8 


import requests $5| A requests 


link = "http : //Www. santostang.com/" # 定 义 Link 为 目标 网 页 地 址 


+ SE CIBGR EU 在 器 代理 ， 伪 装 成 浏览 


headers = ('User-Agent' : 'Mozilla/5.0 (Windows; 


U; Windows NT 6.1; en-US; 


rv:1.9.1.6) 


Gecko/20091201 Firef 


ox/3,5.6"] 


一 方面 ， 


戏称 自己 是 在 “ 写 bug (错误 ) 而 非 写 程序 ”。 这 些 错 误 一 般 来 说 会 使 得 整个 程序 停止 运行 ， 但 是 在 Python 中 ， 我 们 可 以 用 


由 于 这 个 网 站 的 设计 


r = requests.get(link, headers- headers) # 请 求 网 页 
print (r.text) #r.text 是 获取 的 网 页 内 容 代 码 


上 述 代码 就 能 获取 博客 首页 的 HTML 代 码 ，HTML 是 用 来 描述 网 页 的 一 种 语言 ， 也 就 是 说 网 页 呈现 的 内 容 背 后 都 是 HTML 代 码 。 如 果 你 对 HTML 不 熟悉 的 话 ， 可 以 先 去 
w3school(http://www.w3school.com.cn/html/index.asp) 学 习 一 下 ， 大 概 花 上 几 个 小 时 就 可 以 了 解 HTML。 


在 上 述 代 码 中 ， 首 先 import requests 引 入 包 requests， 之 后 获取 网 页 。 

(1) 首先 定义 link 为 目标 网 页 地 址 。 

(2) 之 后 用 headers 来 定义 请 求 头 的 浏览 器 代理 ， 进 行 伪装 。 

(3) "是 requests 的 Response 回 复 对 象 ， 我 们 从 中 可 以 获取 想 要 的 信息 。rtext 是 获取 的 网 页 内 容 代码 。 


运行 上 述 代码 得 到 的 结果 如 图 2-16 所 示 。 


<!DOCTYPE html> 

<html lane= zh-CN > 

<head> 

<meta charset- UIF-8 > 

<meta http-equiv- X-UA-Compatible” content-"IE-edge > 

<meta name= viewport” content- width-device-width, initial-scale-1, maximum-scale=1*> 

《title》 大 数据 分 析 @ 唐 松 《/title> 

<meta name=" description” content= BHAMAR, 分享 大 数据 分 析 和 Python 网 络 胞 虫 的 电 者 。” > 

<meta name-^keywords^ content-^]BiA^, Santos, S” > 

<link rel=“shortcut icon” href-" http://www. santostang. com/wp-content/themes/SongStyle-Two/images/favicon. ico’ type= image/x-icon /> 
<link rel="stylesheet” href="http: //www. santostang. com/wp-content/themes/SongStyle-Two/css/bootstrap. min. css” > 

<link rel="stylesheet” href="http: //www. santostang. com/wp-content/themes/SongStyle-Two/css/font-awesome. min. css > 

<script type=" text/javascript” src= http: //www. santostang. com/wp-content/themes/SongStyle-Two/js/jquery. min. js ></script> 
<script type=" text/javascript“ src= http: //www. sah is ei =e Niele nin. js ></script> 
<link rel="stylesheet” href-" http: 


图 2-16 ”获取 页 面 


2.3.2 第 二 步 : 提取 需要 的 数据 


#!/usr/bin/python 
# coding: utf-8 


import requests 


from bs4 import BeautifulSoup # 从 bs4 这 个 库 中 导入 BeautifulSoup 
link = "http://www.santostang.com/" 
headers = {'User-Agent' : 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'} 


r — requests.get(link, headers- headers) 


soup = BeautifulSoup(r.text, "html.parser") # 使 用 BeautifulSoup 解 析 


# 找 到 第 一 篇 文章 标题 ， 定 位 到 class 是 "post-tit1le" 的 hl 元 素 ， 提 取 a， 提 取 a 里 面 的 字符 串 ，strip () 去 除 左右 空格 
title = soup.find("hl", class -"post-title").a.text.strip() 
print (title) 


在 获取 整个 页 面 的 HTML 代 码 后 ， 我 们 需要 从 整个 网 页 中 提取 第 一 篇 文章 的 标题 。 


这 里 用 到 BeautifulSoup 这 个 库 对 页 面 进行 解析 ，BeautifulSoup 将 会 在 第 4 章 进行 详细 讲解 。 首 先 需要 导入 这 个 库 ， 然 后 把 HTML 代 码 转化 为 soup 对 象 ， 接 下 来 用 soup.find("h1"class_= "post- 
title").a.text.strip0 得 到 第 一 篇 文章 的 标题 ， 并 且 打 印 出 来 。 


soup.find("h1",class ="post-title").a.text.strip(0 的 意思 是 ， 找 到 第 一 篇 文章 标题 ， 定 位 到 class 是 "post-title" 的 h1 元 素 ， 提 取 a 元 素 ， 提 取 a 元 素 里 面 的 字符 串 ，strip0 去 除 左右 空格 。 
对 初学 者 来 说 ， 使 用 BeautifulSoup 从 网 页 中 提取 需要 的 数据 更 加 简单 易 用 。 

那么 ,我 们 怎么 从 那么 长 的 代码 中 准确 找到 标题 的 位 置 呢 ? 

这 里 就 要 隆重 介绍 Chrome 浏 览 器 的 “检查 (PATR) ”功能 了 。 下 面 介绍 找到 需要 元 素 的 步骤 


步骤 01 使 用 Chrome 浏 览 器 打开 博客 首页 www.santostang.com。 右 击 网 页 页 面 ， 在 弹出 的 快捷 菜单 中 单 击 “ 检 查 ” 命 令 ， 如 图 2-17 所 示 。 


— — | Ld Ey — raa 
ix[S] (B) Alt+ [I 7r 853 


Bii F Alt fal 


zm F a = | | _— E" g 


重新 加 载 (R) tar 


5312 73(A)... Ctrl S 
TIED)... Ctrl+F 
t28] (C)... 

ELPA 【 简体 ) (T) 


JEET 
LastPass 


查看 网 页 源 代码 (V) Ctrl 
榨 但 (IN) Ctrl - Shift] 


图 2-17 选择 “检查 ”命令 


步骤 02 ”出 现 如 图 2-18 所 示 的 审查 元 素 页 面 。 单 击 左上 角 的 鼠标 键 按 钮 ， 然 后 在 页 面 上 单 击 想 要 的 数据 ， 下 面 的 Elements 会 出 现 相应 的 code 所 在 的 地 方 ， 就 定位 到 想 要 的 元 素 了 。 


row" EA i i 和 z r 
{ 上 j | | T: r I | ^. 
i =| | i bs | | 5 


echarts 学 习 笔记 (2) 一 同一 页 面 多 图 表 


大 数据 @ 唐 松 本 文 首发 于 CSDN ， 当 年， 也 就 是 2014 年 ， 我 还 是 在 大 四 的 最 后 一 个 暑假 , 在 EMC 
Santos 3, Ri echarts 做 一 个 可 视 化 的 工具 。 在 一 个 页 面 只 是 一 个 图 表 很 简单 ， 如 果 要 在 一 
^ e ini 面 中 闫 加 多 张 图 的 癸 ， 怎 么 办 呢 ? 


Elements Console Sources Network Timeline Profiles Application Security Audits Adblock Plus 
P «div class="avatar">..</div> 


<h3 id-"name";»A A Aaa Santos«/h3» 
FP <div class="sns">.</div> 
> <div class="nav">..¢/div> 
/header> 
F «div id-"main"» 
"div class="row box" 
::betore 
"«div classs"col-md-8"» 
"article class="article-list-1 clearfix" 
::before 
"header class-"clearflx"» 
::betore 
"«hl class="post-title"> 
«a href-"http: //www.santostang.com/2017/03/07/echartsXe5XadXa6Xe4Xb9Xa0Xe 7Xac..BXaeXb02 - 
Xe5x8d495xe9Xaltb5Xeo0x0dXa2Xe5Xa4X0aXe5xbcXa8xe5X9bXbexeBXalXaB/"^echarts*zE2]3Eq2(2) - fRsI-Tumm EE </a> == $86 


图 2-18 WELA 


= 


1 d 


步骤 03 ”在 代码 中 找到 标 蓝 色 的 地 方 ， 为 <h1 class 二 "post-title"><a>echatts 学 习 笔 记 (2) - 同一 页 面 多 图 表 </a>。 我 们 可 以 用 soup.find("h1",class_=="post-title").a.text.sttip0 提 取 该 博文 的 标题 。 


2.3.3 ”第 三 步 : 存储 数据 


import requests 
from bs4 import BeautifulSoup ， # 从 bs4 这 个 库 中 导入 BeautifulSoup 


link = "http://www.santostang.com/" 
headers = {'User-Agent' : 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'} 
r — requests.get(link, headers- headers) 


soup = BeautifulSoup(r.text, "html.parser") # 使 用 BeautifulSoup 解 析 
title = soup.find("hl", class -"post-title").a.text.strip() 
print (title) 


# 打开 一 个 空白 的 txt， 然 后 使 用 f.write 写 入 刚刚 的 字符 串 title 
with open('title test.txt', "a+") as f: 
f.write (title) 


存储 到 本 地 的 txt 文 件 非常 简单 ， 在 第 二 步 的 基础 上 加 上 2 行 代码 就 可 以 把 这 个 字符 串 保 存在 text 中 ， 并 存储 到 本 地 。txt 文 件 地 址 应 该 和 你 的 Python 文件 放 在 同一 个 文件 夹 。 


返回 文件 夹 ， 打 开 title.txt 文 件 ， 其 中 的 内 容 如 图 2-19 所 示 。 


tte - io 
[ZED SRO MNO ID 
Echarts 学 习 笔 记 (2) 一 同一 页 面 多 图 表 


图 2-19 ”查看 保存 的 文件 


2.4 Python 实践 : 基础 巩固 


学 习 完 基础 知识 ， 做 完 第 一 个 聆 虫 例 子 后 ， 是 不 是 觉得 网 络 怜 虫 并 没有 想象 中 那么 难 呢 ? 本 书 的 目标 就 是 希望 你 可 以 快速 上 手 Python 和 怜 虫 ， 然 后 在 后 面 的 实战 中 学 习 。 但 是 Python 疏 虫 入 门 简单 ， 
一 步 步 深入 学 习 后 ， 你 会 发 现 坑 越 来 越 多 。 只 有 认真 阅读 、 反 复 练习 ， 才 能 就 能 生 巧 。 


为 了 巩固 大 家 学 习 Python 网 络 拒 虫 的 成 果 ， 第 2 章 ~ 第 7 章 的 结尾 都 提供 了 一 个 实践 项 目 。 这 些 实 践 的 目的 一 是 让 读者 从 实践 中 检验 自己 学 习 了 多 少 知识 ， 二 是 进一步 巩固 在 该 章节 中 学 习 的 知识 。 这 些 
实践 项 目的 完整 代码 都 在 书 中 ， 你 也 可 以 从 本 书 配 书 资源 的 下 载 地 址 下 载 。 除 此 之 外 ， 章 末 还 提供 了 一 个 进 阶 问题 供 感 兴趣 的 读者 思考 。 


如 果 你 是 一 个 编程 新 手 ， 在 进一步 学 习 Python 编 程 之 前 需要 记得 以 下 3 点 : 


(1) 实践 是 最 快 的 学 习 方 式 。 如 果 你 打算 通过 阅读 本 书 而 学 会 Python 拒 虫 ， 就 算 读 上 100 遍 可 能 也 不 会 达到 很 好 的 效果 ， 最 有 效 的 方法 就 是 : 手 输 代码 ， 反 复 练习 。 这 也 是 为 什么 本 书 均 通 过 项 目 案例 
来 讲解 Python 网 络 息 虫 的 原因 。 


(2) 搜索 引擎 是 最 好 的 老师 。 如 果 遇 到 不 明白 的 问题 ， 请 学 会 使 用 百度 或 谷歌 引擎 搜索 。 就 笔者 自己 的 体验 而 言 ， 谷 歌 的 有 效 信息 检索 速度 比 百度 快 ， 较 新 的 回答 很 有 可 能 是 英文 的 ， 但 是 如 果 你 的 英 
文 阅读 能 力 不 行 ， 就 另 当 别论 了 。 记 得 使 用 谷歌 搜索 时 ， 找 到 stack Overflow 网 站 上 的 回答 可 以 非常 快 地 解决 你 的 问题 。 


(3) 请 不 要 复制 、 粘 贴 人 代码。 复制、 粘贴 代码 除了 可 以 让 你 在 短 时 间 内 完成 任务 之 外 ， 没 有 任何 好 处 。 只 有 通过 亲自 输入 代码 ， 并 不 断 重复 、 不 断 加 快速 度 ， 才 会 提升 你 的 编程 能 力 和 编程 效率 。 否 则 
给 你 一 张 白 纸 ， 你 会 什么 代码 都 写 不 出 。 


本 章 实践 的 项 目 主要 是 帮助 Python 的 初学 者 巩固 之 前 学 过 的 知识 ， 如 果 你 已 经 对 Python 有 所 了 解 ， 可 以 跳 过 以 下 部 分 。 为 了 达到 最 好 的 效果 ， 请 先 自 行 完 成 下 面 的 题目 。 每 一 题 后 面 都 会 提供 答案 ， 
这 些 答案 并 不 是 唯一 解 ， 也 不 是 让 你 不 思考 直接 复制 、 粘 贴 运行 的 ， 而 是 用 来 对 比 思 路 ， 巩 固 Python 基 础 内 容 的 。 


2.4.1 Python 基础 试题 


试题 1: 请 使 用 Python 中 的 循环 打印 输出 从 1 到 100 的 所 有 奇数 。 

试题 2: 请 将 字符 串 “ 你 好 $$$ 我 正在 学 Python@#@# 现 在 需要 &*&*& 修 改 字 符 串 ”中 的 符号 变 成 一 个 空格 ， 需 要 输出 的 格式 为 : “你 好 我 正在 学 Python 现在 需要 修改 字符 串 ” 
试题 3: 输出 9x 9 乘法 口诀 表 。 

试题 4: 请 写 出 一 个 函数 ， 当 输入 函数 变量 月 利润 为 | 时 ， 能 返回 应 发 放 奖 金 的 总 数 。 例 如 ， 输 出 “利润 为 100000 元 时 ， 应 发 放 奖 金 总 数 为 100007”。 


其 中 ， 企 业 发 放 的 奖金 根据 利润 提成 。 利 润 (1) 低 于 或 等 于 10 万 元 时 ， 奖 金 可 提 10%; 利润 高 于 10 万 元 ， 低 于 20 万 元 时 ， 低 于 10 万 元 的 部 分 按 10% 提 成 ， 高 于 10 万 元 的 部 分 ， 可 提成 7.59%; 利润 在 20 
万 元 到 40 万 元 之 间 时 ， 高 于 20 万 元 的 部 分 可 提成 5%; 利润 在 40 万 元 到 60 万 元 之 间 时 ， 高 于 40 万 元 的 部 分 可 提成 3%; 利润 在 60 万 元 到 100 万 元 之 间 时 ， 高 于 60 万 元 的 部 分 可 提成 1.5%; 利润 高 于 100 万 元 
时 ， 超 过 100 万 元 的 部 分 按 1% 提 成 。 


试题 5: 用 字典 的 值 对 字典 进行 排序 ， 将 {1:2,3:4,4:3,2:1,0:0} 按 照 字 上 典 的 值 从 大 到 小 进行 排序 。 


试题 6: 请 问 以 下 两 段 代码 的 输出 分 别 是 什么 ? 


a= 1 
def fun(a): 

a.append (1) 
fun (a) 
print (a) 


试题 7: 请 问 以 下 两 段 代码 的 输出 分 别 是 什么 ? 


class Person: 
name-"aaa" 


pl=Person () 
p2=Person () 
pl.name-"bbb" 


print (pl.name) 
print (p2.name) 
print (Person.name) 


lass Person: 
name- [] 


Q 


pl=Person () 
p2=Person () 
pl.name.append (1) 
print (pl.name) 
print (p2.name) 
print (Person.name) 


试题 1 答案 
for i in range(1,101): 
if i %2 = 1: 
print (i) 


在 上 述 代码 中 ，range(1,101) 返 回 的 是 从 1 到 100 所 有 整数 的 列表 list， 然 后 使 用 循环 判断 这 个 数字 除 以 2 的 余数 是 否 为 1，i%2 返 回 的 是 i 除 以 2 的 余数 。 如 果 余 数 等 于 1， 就 输出 该 数字 。 


试题 2 答案 : 


sn = "你 好 $$$ 我 正在 学 Python@#@# 现 在 需要 &% &% $8 修改 字符 串 ， 
str2 = strl.replace('$$$', ' ').replace('@#@#', ' ').replace ('&%&%&', ' ') 
print (str2) 


在 上 述 代 码 中 ， 使 用 replace 方 法 可 以 将 字符 串 中 的 一 些 字符 替换 成 想 要 的 字符 。 例 如 ，str1.replace($$$ ,，) 就 是 把 str1 中 的 '$$$ 蔡 换 成 空格 。 


其 实 还 可 以 采用 另 一 种 更 加 简单 的 方法 : 


impor 

m = + 你 &S&*81E PLE TE ' 
str2 = re.sub(' [$@#&%]+ ; Strl) 

print (str2) 


这 里 用 到 一 个 库 re (正则 表达 式 ) ， 使 用 其 中 的 re.sub 可 以 进行 替换 。 正 则 表达 式 的 功能 将 在 第 5 章 进行 详细 说 明 。 


试题 3 答案 : 


for i in range (1, 10): 
for j in range(1, itl): 

print ("Sdx%d=Sd\t" $ (j, i, i*j), end="") 
print ("") 


运行 上 述 代码 ， 得 到 的 结果 如 图 2-20 所 示 。 


5x5-2b 

5x6-30  6x6-36 
5x7-35 6x 7-42 
5x8-40  6x8-48 
5x9=45  6x8-54 


图 2-20 9X9 乘 法 口诀 表 
上 述 代码 使 用 了 两 个 循环 的 伐 套 ， 在 第 一 个 循环 中 为 1， 在 第 二 个 循环 中 为 1。 当 完成 循环 后 ，i 会 加 1， 变 成 2，j 又 从 1 开始 一 个 


试题 4 答案 : 


def calcute_profit (I): 
/ 10000 
if I <= 10: 


elif I «- 20 and I > 10: 


elif I <= 40 and I > 20: 


elif I 
eturn d * 10000 
elif I <= 100 and I > 60 
e= 2.45 + * 015 
return e * 10000 
else: 
f = 2.95 + * 0.0 


return f * 10000 


I = int (input (' 净 利润 :' 
profit = ca ioe profit 
print ( TU DES 应 发 奖金 总 数 为 sd 元 ， $ (I, profit)) 


Tx T=49 
Tx8-56 88-64 
Tx9=63  Bx9-'T2 


新 的 循环 ， 从 而 得 到 输出 的 这 个 9x 9 乘法 表 。 


在 上 述 代码 中 ， 计 算 应 发 奖金 时 ， 我 们 对 不 同 的 情况 使 用 i 剑 elif 进 行 了 不 同 的 处 理 。 


还 可 以 使 用 一 个 比较 简洁 的 方式 : 


def Cale profit (I): 
arr = [1000000,600000,400000,200000,100000,0] 
FETAL AE 把 它们 放 在 列表 里 方便 访问 
rat = .05,0.075,0.1] 
eevee ta ia 52 4e DEBIT 
Eo # 这 是 总 奖金 的 初始 值 

for idx in range(0,6): UH 6 个 分 界 ， 值 当然 要 循环 6 次 

if I > arr[idx]: 


r-rc- (I - arr[idx]) * rat [idx] 
I = arr[idx] 


return r 


I = int (input (' 净 利润 :' 
profit = calcute prof 


print (' 利 润 为 % ipod, 应 发 奖金 总 数 为 $4 元， % (I, profit)) 


试题 5 答案 : 


import operator 
x — DU 2, 3$44 42395 2:5, O0] 


sorted x = sorted(x.items(), key-operator.itemgetter (1)) 


print (sorted x) 
运行 上 述 代码 ， 输 出 的 结果 是 : 
[(0,0),(2,1),(1,2),(4,3),(3,4)] 


对 字典 进行 排序 是 不 可 能 的 ， 只 有 把 字典 转换 成 另 一 种 方式 才能 排序 。 字 典 本 身 是 无 序 的 ， 但 是 如 列表 元 组 等 其 他 类 型 是 有 序 的 ， 所 以 需要 用 一 个 元 组 列表 来 表示 排序 的 字典 。 


hi 


试题 6 答 
第 一 段 代码 输出 的 结果 是 : 1 
第 二 段 代码 输出 的 结果 是 : [T] 
从 结果 发 现 ， 在 第 一 段 代码 中 ，a 为 数字 int， 函 数 改变 不 了 函数 以 外 a 的 值 ， 输 出 结果 仍然 为 1， 而 在 第 二 段 代码 中 ，a 为 列表 ， 函 数 将 函数 以 外 的 a 值 改变 了 。 


这 是 因为 在 Python 中 对 象 有 两 种 ， 即 可 更 改 (mutable) 与 不 可 更 改 (immutable) 对 象 。 在 Python 中 ，strings 字 符 串 、tuples 元 组 和 numbers 数 字 是 不 可 更 改 对 象 ， 而 list 列 表 、dict 字 典 等 是 可 更 
改 对 象 。 


在 第 一 段 代码 中 ， 当 一 个 引用 传递 给 函数 时 ， 遂 数 自 动 复制 一 份 引 用 。 水 数 里 和 函数 外 的 引用 是 不 一 样 的 。 


在 第 二 段 代码 中 ， 函 数 内 的 引用 指向 的 是 可 变 对 象 列 表 a ， 函 数 内 的 列表 a 和 函数 外 的 列表 a 是 同一 个 。 


hi 


试题 7 答 
第 一 段 代 码 输 出 的 结果 是 : bbbaaaaaa 
第 二 段 代 码 输出 的 结果 是 : [1][1][1] 


代码 中 的 p1.name= "bbb "表示 实例 调用 了 类 变量 ， 其 实 就 是 函数 传 参 的 问题 。p1.name 一 开始 指向 类 变量 name= "aaa"， 但 是 在 实例 的 作用 域 里 把 类 变量 的 引用 改变 了 ， 就 变 成 了 一 个 实例 变 


量 ，self.name 不 再 引用 Person 的 类 变量 name 了 ， 所 以 第 一 个 答案 是 bbb。 而 后 面 的 两 个 答案 还 是 调用 类 变量 name= "aaa"， 所 以 还 是 aaa。 


第 二 段 的 答案 因为 正如 上 面 所 言 ， 列 表 和 字典 是 可 更 改 对 象 ， 因 此 修改 一 个 指向 的 对 象 时 会 把 类 变量 也 改变 了 。 


2.4.3 ARLEN 


读者 若 有 时 间 ， 可 以 从 W3school 的 Python 100 例 中 学 习 Python 的 各 种 应 用 基础 知识 ， 网 址 是 : https://www.w3cschool.cn/python/python-100-examples.html, 


第 3 章 ”静态 网 页 抓 取 


在 网 站 设计 中 ， 纯 粹 HTML 格式 的 网 页 通常 被 称 为 静态 网 页 ， 早 期 的 网 站 一 般 都 是 由 静态 网 页 制作 的 。 在 网 络 爬 虫 中 ， 静 态 网 页 的 数据 比较 容易 获取 ， 因 为 所 有 数据 都 呈现 在 网 页 的 HIML 代 码 中 。 相 对 
而 言 ， 使 用 AJAX 动 态 加 载 网 页 的 数据 不 一 定 会 出 现在 HTMI 人 代码 中 ， 这 就 给 爬虫 增加 了 困难 。 本 章 先 从 简单 的 静态 网 页 抓 取 开 始 介绍 ， 第 4 章 再 介绍 动态 网 页 抓 取 。 


在 静态 网 页 抓 取 中 ， 有 一 个 强大 的 Requests 库 能 够 让 你 轻易 地 发 送 HTTP 请 求 ， 这 个 库 功 能 完善 ， 而 且 操 作 非 常 简单 。 本 章 首 先 介绍 如 何 安装 Requests 库 ， 然 后 介绍 如 何 使 用 Requests 库 获取 响应 内 容 ， 最 


N 


后 可 以 通过 定制 Requests 的 一 些 参数 来 满足 我 们 的 需求 。 


3.1 Requests 


Requests 库 能 通过 pip 安 装 。 打 开 Windows 的 cmd 或 Mac 的 终端 ， 键 入 : 
pip install requests 


就 安装 完成 了 。 


3.2 ”获取 响应 内 容 


在 Requests 中 ， 常 用 的 功能 是 获取 某 个 网 页 的 内 容 。 现 在 我 们 使 用 Requests 获 取 个 人 博客 主页 的 内 容 。 


import requests 

r = requests.get ('http://www.santostang.com/') 
print ("AXAkZmfB:", r.encoding) 

print (" 响 应 状态 码 :"，L.status_coqde) 

print (" 字 符 串 方式 的 响应 体 :"，TL.text) 


这 样 就 返回 了 一 个 名 为 [的 response 响 应 对 象 ， 其 存储 了 服务 器 响应 的 内 容 ， 我 们 可 以 从 中 获取 需要 的 信息 。 上 述 代码 的 结果 如 图 3-1 所 示 。 


文本 编码 : UTF-8 
响应 状态 码 : 200 
字符 串 方 式 Bon d : «IDOCTI 


<html lane=" zh-CN > 
<head> 
<meta charset- UTF-8 > 


图 3-1 显示 获取 的 信息 
上 例 的 说 明 如 下 : 
(1) rtext 是 服务 器 响应 的 内 容 ， 会 自动 根据 响应 头 部 的 字符 编码 进行 解码 。 
(2) rencoding 是 服务 器 内 容 使 用 的 文本 编码 。 


(3) rstatus code 用 于 检测 响应 的 状态 码 ， 如 果 返 回 200， 就 表示 请 求 成 功 了 ; 如 果 返 回 的 是 4xx， 就 表示 客户 端 错误 ; 返回 ?xx 则 表示 服务 器 错误 响应 。 我 们 可 以 用 rstatus_code 来 检测 请 
确 响 应 。 


(4) rcontent 是 字 节 方式 的 响应 体 ， 会 自动 解码 gzip 和 deflate 编 码 的 响应 数据。 


(5) rjson0 是 Requests 中 内 置 的 JSON 解 码 器 。 


3.3 ”定制 Requests 


在 3.2 节 中 ， 我 们 使 用 Requests 库 获取 了 网 页 数据 ， 但 是 有 些 网 页 需要 对 Requests 的 参数 进行 设置 才能 获取 需要 的 数据 ， 这 包括 传递 URL 参 数 、 定 制 请求 头 、 发 送 POST 请 求 、 设 置 超时 等 。 


3.3.1 ”传递 URL 参 数 


为 了 请 求 特定 的 数据 ， 我 们 需要 在 URL 的 查询 字符 串 中 加 入 某 些 数据 。 如 果 你 是 自己 构建 URL， 那 么 数据 一 般 会 跟 在 一 个 问号 后 面 ， 并 且 以 键 / 值 的 形式 放 在 URL 中 ， 如 http://httpbin.org/get? 


key1=value1。 


在 Requests 中 ， 你 可 以 直接 把 这 些 参数 保存 在 字典 中 ， 用 params (参数 ) 构建 至 URL 中 。 例 如 ， 传 递 Key1=value1 和 key2=value2 到 http://httpbin.org/get， 可 以 这 样 编写 


import requests 

key dict = {'keyl': 'valuel', 'key2': 'value2'] 

r = requests.get('http: //httpbin, org/get', params-key dict) 
print ("URL 己 经 正确 编码 :， ', r.url) i 
print (" 字 符 串 方式 的 响应 体 : Nn", r.text) 


通过 上 述 代码 的 输出 结果 可 以 发 现 URL 已 经 正确 编码 : 
URL 已 经 正确 编码 : http://httpbin.org/get?key1=value1 &key2=value2 


字符 串 方式 的 响应 体 : 


{ 

"args" : { 
"keyl": "valuel", 
"key2": "value2" 

}, 

"headers": { 
"Accept" : WA LAM 
"Accept-Encoding": "gzip, deflate", 
"Connection": "close", 
"Host": "httpbin.org", 
"User-Agent": "python-requests/2.12.4" 


, 
"origin": "116.49.102.8", 
"url": "http://httpbin.org/get?keyl-valuel&key2-value2" 
} 


3.3.2 ”定制 请 求 头 

请 求 头 Headers 提 供 了 关于 请 求 、 响 应 或 其 他 发 送 实体 的 信息 。 对 于 怜 虫 而 言 ， 请 求 头 十 分 重要 ， 尽 管 在 上 一 个 示例 中 并 没有 制定 请 求 头 。 如 果 没 有 指定 请 求 头 或 请 求 的 请 求 头 和 实际 网 页 不 一 致 ， 就 
可 能 无 法 返回 正确 的 结果 

Requests 并 不 会 基于 定制 的 请 求 头 Headers 的 具体 情况 改变 自己 的 行为 ， 只 是 在 最 后 的 请 求 中 ， 所 有 的 请 求 头 信息 都 会 被 传递 进去 。 


那么 ， 我 们 如 何 找到 正确 的 Headers 呢 ? 


还 是 用 到 第 2 章 提 到 过 的 Chrome 浏 览 器 的 “检查 ”命令 。 使 用 Chrome 浏 览 器 打开 要 请 求 的 网 页 ， 右 击 网 页 的 任意 位 置 ， 在 弹出 的 快捷 菜单 中 单 击 “检查 ”命令 。 


如 图 3-2 所 示 ， 在 随后 打开 的 页 面 中 单 击 Network 选 项 。 


Elements Cons: Sources Network Timeline Profiles Application 


EM y | Preserve log Jisable cache Offline ^ 


Regex Hide data URLs EB XHR JS CSS Img Media 


图 3-2” X dkNetwork i& 5j 


如 图 3-3 所 示 ， 在 左 侧 的 资源 中 找到 需要 请 求 的 网 页 ， 本 例 为 www.santostang.com。 单 击 需要 请 求 的 网 页 ， 在 Headers 中 可 以 看 到 Requests Headers 的 详细 信息 。 


X | Headers Preview Response Timing 


| | www.santostang.com Connection: Keep-Alive 
font-awesome.min.css Content-Type: text/html; charset=UTF-8 
r^ Date: Tue, 07 Mar 2017 15:37:09 GMT 
| Keep-Alive: timeoutz5, maxz99 
—.] bootstrap.min,js Link: «http://www.santostang.com/wp-json/»; rel="https://api.w.org/" 
style.css Server: Apache 
crayon.min.css?verz 2.7.2 beta Transfer-Encoding: chunked 
X-Powered-By: PHP/5.6.30 


_ | bootstrap.min.css 


jquery.min.js 


- 


classic.css?verz 2.7.2 beta Y Request Headers 

p g Accept text/html ,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8 
Accept-Encoding: gzip, deflate, sdch 
Accept-Language: en-US,en;3-0.8,zh-CN; q-0.6,zh;q-0.4,zh- TW; q-0.2 

style.min.css?verz4.7.3 Cache-Control: max-age- 

si captcha.js?ver- 1488901030 Connection: keep-alive 

Host: www.santostang.com 

Upgrade-Insecure-Requests: 1 


27 requests | 25.4 KB transferred | Finish: 12.835 | DOMContentLoad... User-Agent: Mozilla/5.@ (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like 


monaco.css?verz 2.7.2 beta 


font-awesome.min.css?verz 4.7.3 


@ avatar.jpg - 


图 3-3 ”找到 需要 请 求 网 页 的 头 信 息 
因此 ， 我 们 可 以 看 到 请 求 头 的 信息 为 : 
GET/HTTP/1.1 
Host:www.santostang.com 
Connection:keep-alive 
Upgrade-Insecure-Requests:1 
User-Agent:Mozilla/5.0(Windows NT 6.1;WOW?64)AppleWebkKit/537.36(KHTML,like Gecko)Chrome/57.0.2987.98 Safari/537.36 
Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8 Accept-Encoding:gzip,deflate,sdch 
Accept-Language:en-US,en;q=0.8,zh-CN;q=0.6,zh;q=0.4,zh-TW;q=0.2 


提取 请 求 头 中 重要 的 部 分 ， 可 以 把 代码 改 为 : 


import requests 
headers = { 
'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/ 537.36 (KHTML, like Gecko) Chrome/52.0.2743.82 Safari/537.36', 
'Host': 'www.santostang.com' 

} 
r = requests.get('http://www.santostang.com/', headers=headers) 
print (" 响 应 状态 码 :"，L.status_code) 


3.8.3 AGEPOSTIBX 


除了 GET 请 求 外 ， 有 时 还 需要 发 送 一 些 编码 为 表单 形式 的 数据 ， 如 在 登录 的 时 候 请 求 就 为 POST， 因 为 如 果 用 GET 请 求 ， 密 码 就 会 显示 在 URL 中 ， 这 是 非常 不 安全 的 。 如 果 要 实现 POST 请 求 ， 只 需要 简 
单 地 传递 一 个 字典 给 Requests 中 的 data 参 数 ， 这 个 数据 字典 就 会 在 发 出 请 求 的 时 候 自动 编码 为 表单 形式 。 


import requests 

key dict = ("'keyl': ‘waluel’, ‘key2’: 'value2'] 

r= requests.post( http://httpbin.org/post', data-key dict) 
print (r.text) 


输出 的 结果 为 : 


"args": {}, 


"data": "", 
"form": ( 
"key1": "value1", 


"key2": "value2" 


可 以 看 到 ，form 变 量 的 值 为 key_dict 输 入 的 值 ， 这 样 一 个 POST 请 求 就 帮 送 成 功 了 。 


3.3.4 超时 
有 时 爬虫 会 遇 到 服务 器 长 时 间 不 返回 ， 这 时 疏 虫 程序 就 会 一 直 等 待 ， 造 成 聆 虫 程序 没有 顺利 地 执行 。 因 此 ， 可 以 用 Reduests 在 timeout 参 数 设 定 的 秒 数 结束 之 后 停止 等 待 响应 。 意 思 就 是 ， 如 果 服 务 器 
在 timeout 秒 内 没有 应 答 ， 就 返回 异常 。 


我 们 把 这 个 秒 数 设 置 为 0.001 秒 ， 看 看 会 抛 出 什么 异常 。 这 是 为 了 让 大 家 体验 timeout 异 常 的 效果 而 设置 的 值 ， 一 般 会 把 这 个 值 设 置 为 20 秒 。 


import requests 
link = "http://www.santostang.com/" 
r — requests.get(link, timeout- 0.001) 


返回 的 异常 为 : ConnectTimeout:HTTPConnectionPool(host='www.santostang.com',port=80):Max retries exceeded with url:/(Caused by 


ConnectTimeoutError(« requests.packages.urllib3.connection.HTTPConnection object at 0x0000000005B85B00» ,'Connection to www.santostang.com timed out.(connect timeout=0.001)')), 


异常 值 的 意思 是 ， 时 间 限 制 在 0.001 秒 内 ， 连 接 到 地 址 为 www.santostang.com 的 时 间 已 到 。 


3.4 Requests/ErBscEE: TOP250 电 影 数据 


本 章 实践 项 目的 目的 是 获取 豆 斩 电影 TOP250 的 所 有 电影 的 名 称 ， 网 页 地 址 为 : https://movie.douban.com/top250。 在 此 拒 虫 中 ， 将 请 求 头 定 制 为 实际 浏览 器 的 请 求 头 。 


3.4.1 ”网 站 分 析 


打开 豆瓣 电影 TOP250 的 网 站 ， 使 用 “检查 ”功能 查看 该 网 页 的 请 求 头 ， 如 图 3-4 所 示 。 
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图 3-4 豆 闪 电影 TOP250 的 网 站 


按照 3.3.2 中 的 方法 提取 其 中 重要 的 请 求 头 : 


headers = { 
'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.82 Safari/537.36', 
'Host': 'movie.douban.com' 


oi» 


第 一 页 只 有 25 个 电影 ， 如 果 要 获取 所 有 的 250 页 电影 ， 就 需要 获取 总 共 10 页 的 内 容 。 
通过 单 击 第 二 页 可 以 发 现 网 页 地 址 变 成 了 : 
https://movie.douban.com/top250?start=25 


第 三 页 的 地 址 为 : https://movie.douban.com/top250?start=50， 这 就 很 容易 理解 了 ， 每 多 一 页 ， 就 给 网 页 地 址 的 start 参 数 加 上 25。 


3.4.2 项目 实 践 


通过 以 上 分 析 发 现 ， 可 以 使 用 requests 获 取 电 影 网 页 的 代码 ， 并 利用 for 循 环 翻 页 。 其 代码 如 下 : 


import requests 


def get movies(): 
headers = { 
‘user-agent’: 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHT 
'Host': 'movie.douban.com' 
} 
for i in range(0,10): 
link = 'https://movie.douban.com/top250?start-' + str(i * 25) 
r = requests.get (link, headers-headers, timeout= 10) 
print (str (itl), "WU RRA =", r.status code) 
print (r.text) 


;; like Gecko) Chrome/52.0.2743.82 Safari/537.36', 


get movies () 
运行 上 述 代 码 ， 得 到 的 结果 是 : 
1 页 响应 状态 码 :200 
«IDOCTYPE html» 
«html lang="zh-cmn-Hans"class="ua-windows ua-webkit" > 
<head> 
«meta http-equiv="Content-Type"content="text/html;charset=UTF-8" > 
«meta name="renderer"content="webkit" > 
<meta name="referrer"content= "always" > 
<title> 
SFA eZ TOP250 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/18359/OEBPS/Text/... 
这 时 ， 得 到 的 结果 只 是 网 页 的 HTML 代 码 ， 我 们 需要 从 中 提取 需要 的 电影 名 称 。 接 下 来 会 涉及 第 5 章 解 析 网 页 的 内 容 ， 读 者 可 以 先 使 用 下 面 的 代码 ， 至 于 对 代码 的 理解 ， 可 以 等 到 第 5 章 再 学 习 。 


import requests 
from bs4 import BeautifulSoup 


def get movies(): 
headers = { 


'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.82 Safari/537.36', 
'Host': 'movie.douban.com' 


movie list = [] 

for i in range(0,10): 
link = 'https://movie.douban.com/top250?start-' + str(i*25) 
r = requests.get (link, headers=headers, timeout= 10) 
print (str (itl), "页 响应 状态 人 码 :"，r.status code) 


soup = BeautifulSoup(r.text, "lxml") 
div list = soup.find all('div', class -'hd') 
for each in div list: 7 
movie = each.a.span.text.strip() 
movie list.append (movie) 
return movie list 


movies = get movies () 
print (movies) 


在 上 述 代码 中 ， 使 用 BeautifulSoup 对 网 页 进行 解析 并 获取 其 中 的 电影 名 称 数据 。 运 行 代码 ， 得 到 的 结果 是 : 
1 页 响应 状态 码 :200 
2 页 响应 状态 码 :200 
3 页 响应 状态 码 :200 
4 页 响应 状态 码 :200 
5 页 响应 状态 码 :200 
6 页 响应 状态 码 :200 
7 页 响应 状态 码 :200 


8 页 响应 状态 码 :200 


9 页 响应 状态 码 :200 
10 页 响应 状态 码 :200 


[肖申克 的 救赎 ,这 个 杀手 不 太 冷 , BEDE, 阿 甘 正 传 , 美丽 人 生 干 与 干 寻 ' FARRER, 泰坦 尼克 号 , 盗 梦 空 间 , 机 器 人 辟 动 员 ', 海上 钢琴 师 , SASS, 忠 大 八 公 的 故事 放 牛 班 的 春天 , 大 
话 西游 之 大 圣 娶 杀 ,教父 龙 猫 , 楚 门 的 世界 , 乱世 佳人 ,天 堂 电影 院 , 当 幸 福来 融 门 ， 触 不 可 及 ,搏击 俱乐部 , HERRN, 无间 道 , 熔炉 , 指环 王 3: EATR, PAO AE Soe 


F' ,http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/18359/OEBPS/Text/...] 


343 ”自我 实践 题 


读者 若 有 时 间 ， 可 以 实践 进 阶 问题 : 获取 TOP 250 电 影 的 英文 名 、 港 台 名 、 导 演 、 主 演 、 上 了 映 年 份 、 电 影 分 类 以 及 评分 。 


第 4 章 ”动态 网 页 抓 取 


前 面 扑 取 的 网 页 均 为 静态 网 页 ， 这 样 的 网 页 在 浏览 器 中 展示 的 内 容 都 位 于 HIML 源 代码 中 。 但 是 ， 由 于 主流 网 站 使 用 JavaSctipt 展 现 网 页 内 容 ， 和 静态 网 页 不 同 的 是 ， 使 用 JavaSctipt 时 ， 很 多 内 容 并 不 会 出 
现在 HIML 源 代码 中 ， 所 以 疏 取 静态 网 页 的 技术 可 能 无 法 正常 使 用 。 因 此 ， 我 们 需要 用 到 动态 网 页 抓 取 的 两 种 技术 : 通过 浏览 器 审查 元 素 解 析 真 实 网 页 地 址 和 使 用 Selenium 模 拟 浏 览 器 的 方法 。 


本 章 首 先 介绍 动态 网 页 的 实例 ， 让 读者 了 解 什么 是 动态 抓 取 ， 然 后 使 用 上 述 两 种 动态 网 页 抓 取 技术 获取 动态 网 页 的 数据 。 


4.1 动态 抓 取 的 实例 


在 开始 爬 取 动态 网 页 前 ， 我 们 还 需要 了 解 一 种 异步 更 新 技术 一 AJAX (Asynchronous Javascript And XML， 异 步 Jjavascript 和 XML) 。 它 的 价值 在 于 通过 在 后 台 与 服务 器 进行 少量 数据 交换 就 可 以 使 
网 页 实现 异步 更 新 。 这 意味 着 可 以 在 不 重新 加 载 整个 网 页 的 情况 下 对 网 页 的 某 部 分 进行 更 新 。 一 方面 减少 了 网 页 重复 内 容 的 下 载 ， 另 一 方面 节省 了 流量 ， 因 此 AJAX 得 到 了 广泛 使 用 。 


相对 于 使 用 AJAX 网 页 而 言 ， 传 统 的 网 页 如 果 需 要 更 新 内 容 ， 就 必须 重 载 整个 网 页 页 面 。 因 此 ，AJAX 使 得 互联 网 应 用 程序 更 小 、 更 快 、 更 友好 。 但 是 ，AJAX 网 页 的 礁 虫 过 程 比较 麻烦 。 


首先 ， 让 我 们 来 看 动态 网 页 的 例子 。 打 开 笔 者 博客 的 Hello World 文 章 ， 文 章 地 址 为 : http://www.santostang.com/2018/07/04/hello-world/。 网 址 可 能 会 变更 ， 请 读者 进入 笔者 博客 官网 找到 Hello 
World 文 章 地 址 。 如 图 4-1 所 示 ， 页 面 下 面 的 评论 就 是 用 JavaScript 加 载 的 ， 这 些 评论 数据 不 会 出 现在 网 页 源 代码 中 。 


@ Santos 


评论 25 时 间 正 序 时 间 倒 序 同感 正 序 


(®) Santos 


apo | Ral PPE 


ü 


(8) Santos 
第 20 条 测试 评论 


0 


为 了 验证 页 面 下 面 的 评论 是 用 JavaScript 加 载 的 ， 我 们 可 以 查看 此 网 页 的 网 页 源 代码 。 如 图 4-2 所 示 ， 放 置 该 评论 的 代码 里 面 并 没有 评论 数据 ， 只 有 一 段 JavaScript 代 码 ， 最 后 呈现 出 来 的 数据 就 是 通过 
Javascript 提 取 数 据 加 载 到 源 代码 进行 呈现 的 。 


除了 笔者 的 博客 ， 还 可 以 在 天 猫 电 商 网 站 上 找到 AJAX 技 术 的 例子 。 例 如 ， 打 开 天 猫 的 iPhone XS Max 的 产品 页 面 ， 单 击 “ 昧 计 评价 ”， 可 以 发 现 上 面 的 url 地 址 没有 任何 改变 ， 没 有 重新 加 载 整 个 网 页 


并 对 网 页 的 评论 部 分 进行 更 新 ， 如 图 4-3 所 示 。 


«section id="comments 


"cloud-tie-wrapper" class="cloud-tie-wrapper 
script> i 
var cloudTieConfig = 
url: document.location.href, 


sourceld: "1", 
productKey: 'aace1d69a0924085b4fe15d19cb03378", 
target: "cloud-tie-wrapper" 


» </script> 


B42 ”查看 网 页 的 源 代码 


商品 详情 黑 计 评价 16369 
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图 4-3 累计 评价 


如 图 4-4 所 示 ， 我 们 也 可 以 查看 此 商品 网 页 的 源 代 码 ， 里 面 并 没有 用 户 评论 ， 这 一 块 内 容 是 空白 的 。 


<div id-"J Reviews' class-'J DetailSection > 


«qd class=“ hd > & tH it 《em class="J_ReviewsCount*></ em></h4d> 


</div> 


图 4-4 AJAX 网 页 看 不 到 用 户 评论 
如 果 使 用 AJAX 加 载 的 动态 网 页 ， 怎 么 肛 取 里 面 动态 加 载 的 内 容 呢 ?有 两 种 方法 : 
(1) 通过 浏览 器 审查 元 素 解 析 地 址 。 


(2) 通过 Selenium 模 拟 浏览 器 抓 取 。 


4.2. 解析 真实 地 址 抓 取 


虽然 数据 并 没有 出 现在 网 页 源 代码 中 ， 但 是 我 们 还 是 可 以 找到 数据 的 真实 地 址 ， 请 求 这 个 真实 地 址 也 可 以 获得 想 要 的 数据 。 这 里 用 到 浏览 器 的 “检查 ”功能 。 


下 面 以 笔者 博客 的 Hello World 文 章 为 例 ， 目 标 是 抓 取 文章 下 的 所 有 评论 。 文 章 网 址 为 : http://www.santostang.com/2018/07/04/hello-world/， 网 址 可 能 会 变更 ， 请 读者 进入 笔者 博客 官网 找到 
Hello World 文 章 地 址 。 


步骤 01 打开 “检查 ”功能 。 用 Chrome 浏 览 器 打开 Hello World 文 章 。 右 击 页 面 的 任意 位 置 ， 在 弹出 的 快 弹 菜 单 中 单 击 “检查 ”命令 ， 得 到 如 图 4-5 所 示 的 页 面 窗口 。 
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WRO ”找到 真实 的 数据 地 址 。 单 击 页 面 中 的 Netwo 剑 选项， 然后 刷新 网 页 。 此 时 ，Netwo 全 会 显示 浏览 器 从 网 页 服务 器 中 得 到 的 所 有 文件 ， 一 般 这 个 过 程 称 为 “ 抓 包 ” 


了 ， 所 以 需要 的 评论 数据 一 定 在 其 中 。 
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图 4-5 “检查 页 面 元 素 


。 因 为 所 有 文件 已 经 显示 出 来 


一 般 而 言 ， 这 些 数 据 可 能 以 json 文 件 格式 获取 。 我 们 可 以 在 Network 中 的 All 找 到 真正 的 评论 文件 “list?callback=jQuery11240879907919223679”。 单 击 Preview 即 可 查看 数据 ， 如 图 4-6 所 示 。 
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Response Timing 
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"results"; ( 


livere 


saluton.cizion.com 
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blob:https://was.livere.me 
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= ljdobmomdgdljniojadhoplhkpialdid/page 


runScript.js 

ljdobmomdgdljniojadhoplhkpialdid/page 
list?callback-jQuery112403473268296510956 15... 
api-zero.livere.com/v1/comments 


analytics.js 


utils.zh -cn.dist.js 
— cdn-city.livere.com/js 


"parents": [€ 
"replySeq": 35440756, 
"name": "Santos", 
"memberId": “tangsongsky@gmail.com", 
"memberlIcon": "https://cdn-city.livere.com/images/user profile 4", 
"memberUrl": "https://livere.com", 
"memberDomain": "livere", 
"good": ð, 
"bad : B. 
"police"; 6, 
"parentSeq": 35440756, 
"directSeq": 60, 
"shortUrl": null, 
"title": "Hello world!", 
"site": "http://www. santostang.com/2018/07/04/hello-world/", 
"email": null, 
“ipAddress": "183.16.88.85", 
"isMobile": "ps. 
"agent": "Mozilla/5.0 (Macintosh; Intel Mac 0S X 10 13 3) AppleWebKit/537.36 (KHTML, like Gecko) 
“septSns": null, 
"targetService": null, 
"targetUserName":; null, 


Ej4-6 ”查看 数据 


步骤 03 必 取 真实 评论 数据 地 址 。 既 然 找到 了 真实 的 地 址 ， 接 下 来 就 可 以 直接 用 requests 请 求 这 个 地 址 获取 数据 了 ， 代 码 如 下 : 


import requests 


link = """https://api-zero.livere.com/v1/comments/ 
list?callback-jQuery1124049866736766120545 _ 
1506309304525&1imit-10&offset-1l&repSeq-3871836 
&requestPath=%2Ev1s2Fcomments%2Flist 
&consumerSeq-1020&1ivereSeq-28583 
&smartloginSeq-5154& -1506309304527""" 
('User-Agent' 'Mozilla/5.0 


headers = 


r = requests.get(link, headers- headers) 
print (r.text) 


运行 上 述 代码 ， 获 得 的 结果 如 图 4- 7 所 示 。 
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图 4-7 RRASA R NE 
综 上 所 述 ， 胞 取 类 似 淘宝 网 评论 这 种 用 AJAX 加 载 的 网 页 时 ， 从 网 页 源 代码 中 是 找 不 到 想 要 的 数据 的 。 需 要 用 浏览 器 的 审查 元 素 找 到 真实 的 数据 地 址 ， 然 后 季 取 真实 的 网 站 。 
步骤 04 从 json 数 据 中 提取 评论 。 上 述 结果 比较 杂乱 ， 其 实 这 些 是 json 数 据 ， 我 们 可 以 使 用 json 库 解析 数据 ， 从 中 提取 想 要 的 数据 。 


import json 

# 获取 json 的 string 

json ; string = r. ege 

json string - on string[json string.find( :-2] 
+ 从 第 一 个 左 大 括号 提取 ， RUSSE AB GR ER 取 
json data = json.loads(json string) 

comment list = json data['results']['parents'] 


for eachone in comment list: 
message = eachone['content'] 
print (message) 


首先 ， 我 们 需要 使 用 son_stringfjson_string.find({:-2)]， 仅 仅 提 取 字 符 串 中 符合 json 格 式 的 部 分 。 然 后 ， 使 用 json.loads 可 以 把 字符 串 格 式 的 响应 体 数据 转化 为 json 数 据 。 接 下 来 ， 利 用 json 数 据 的 结 
， 我 们 可 以 提取 到 评论 的 列表 comment list。 最 后 通过 一 个 for 循 环 ， 提 取 其 中 的 评论 文本 ， 并 输出 打印 。 


输出 的 结果 如 图 4-8 所 示 。 
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图 4-8 ”显示 输出 的 结果 


上 述 教 学 只 是 他 取 文 章 的 第 一 页 评论 ， 十 分 简单 。 其 实 ， 我 们 经 常 需要 有 息 取 所 有 页 面 ， 如 果 还 是 人 工 一 页 页 地 翻 页 查找 评论 数据 的 地 址 ， 就 会 十 分 费力 。 下 面 将 介绍 网 页 URL 地 址 的 规律 ， 并 介绍 一 种 
非常 轻松 的 肥 取 方法 一 一 使 用 for 循 环 有 他 取 。 


例如 ， 刚 刚 的 文章 第 一 页 评论 的 真实 地 址 是 : 


https://api-zero.livere.com/v1/comments/list? 


callbackzjQuery112403473268296510956 1531502963311 &limit=10&offset=1&repSeq=4272904&requestPath=%2Fv1%2Fcomments%2Flist&iconsumerSeq= 1020&livereSeq= 285838 smartlt 
如 果 继 续 单 击 “ 加 载 更 多 跟 帖 ”， 从 “审查 元 素 ” 中 可 以 发 现 第 二 页 的 地 址 是 : 


https://api-zero.livere.com/v1/comments/list? 


callbackzjQuery112403473268296510956 1531502963311 &limit=10&offset=2&repSeq=4272904&requestPath=%2Fv1%2Fcomments%2Flist&iconsumerSeq= 1020&livereSeq= 28583&smartl 


如 果 我 们 对 比 上 面 的 两 个 地 址 ， 可 以 发 现 URL 地 址 中 有 两 个 特别 重要 的 变量 ， 即 offset 和 limit。 稍 微 理 解 一 下 可 以 知道 ，limit 代 表 的 是 每 一 页 评论 数量 的 最 大 值 ， 也 就 是 说 ， 这 里 每 一 页 评论 最 多 显示 
30 条 ; offset 代 表 的 是 第 几 页 ， 第 一 页 offset 为 0， 第 二 页 为 1， 那 么 第 三 页 offset 会 是 2。 


因此 ， 我 们 只 需 在 URL 中 改变 offset 的 值 便 可 以 实现 换 页 。 以 下 是 实现 的 代码 : 


impor! 
import 


requests 
json 


def single page comment (link) : 
headers = {'User-Agent' : 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'} 
r= = requests. get (link, headers= headers) 
# 获取 json 的 string 
json string = r.text 
json string - json string[json string.find('('):-2] 
json data = json.loads(json string) 
comment list = json data['results']['parents'] 


for eachone in comment list: 
message = eachone['content'] 
print (message) 


for page in range(1,4): 

linkl = "https://api-zero.livere.com/vl/comments/list?callback =jQuery112407875296433383039 1506267778283&limit-10&offset-" 

link2 = "&repSeq-3871836&requestPath- $2Fvl$2Fcomments$2Flist&consumerSeq-1020&livereSeq-28583&smartloginSeq-5154& =1506267778285" 
page_str = str (page) 
ink = linkl + page str + link2 
print (link) 

single page comment (link) 


在 上 述 代码 中 ，single_page_comment(ling) 是 之 前 礁 取 一 个 评论 页 面 的 代码 ， 现 在 放 入 函数 中 ， 方 便 多 次 调 取 。 另 外 ， 我 们 可 以 使 用 一 个 for 循 环 分 别 抓 取 第 一 页 和 第 二 页 ， 在 生成 最 终 真实 的 URL 地 
址 后 调用 函数 抓 取 。 


运行 完 代码 ， 得 到 的 结果 如 图 4-9 所 示 。 


Pete jf ra fers doen yl 'eammentied Te aiback eer l LIO TETRS ee ee te ele 


&repSeqz 15718 ioe yorstPaths 52v15:2 commentis 7 Hist finn sumerSen = LOO RIvere Seq = 2858 35 marttaginSegs ! 


E Lie i: EI J = LER 


SREE E ai 
TEE 
[MEL ILE arr 
Loe Pe 
Rl Sie 
Lee ME 
ARMEE 
Mlit uir 
Wiimote 
PE Tr [i ura 
Pins ips rera fers com^ L commenti Es catback = jQuery; 1 LIMOTRTR Pa La 8ZB 3l i mit Jie 


E eno xiFatha Pri el pomme x Ss Bo ore Er 2858 35 8 martaginSem s * 
" M tne 

LAGE E 

Not PP 


图 4-9 ”调用 函数 抓 取 结果 


4.3 ”通过 Selenium 模 拟 浏览 器 抓 取 


在 之 前 的 例子 中 ， 使 用 Chrome 的 “检查 ”功能 找到 源 地 址 十 分 容易 ， 但 是 有 些 网 站 非常 复杂 ， 如 天 猫 产品 评论 ， 使 用 “检查 ”功能 很 难 找到 调用 的 网 页 地 址 。 除 此 之 外 ， 有 些 数据 真实 地 址 的 URL 也 
十 分 元 长 和 复杂 ,有些 网 站 为 了 规避 这 些 抓 取 会 对 地 址 进行 加 密 ， 造 成 其 中 的 一 些 变 量 让 人 摸 不 着 头脑 。 


ERE, 另 一 种 方法 ， 即 使 用 浏览 器 泻 染 引擎。 直接 用 浏览 器 在 显示 网 页 时 解析 HTML、 应 用 Css 样式 并 执行 Javascript 的 语句 。 
这 种 方法 在 朴 虫 过 程 中 会 打开 一 个 浏览 器 加 载 该 网 页 ， 自 动 操作 浏览 器 浏览 各 个 网 页 ， 顺 便 把 数据 抓 下 来 。 用 一 句 简单 而 通俗 的 话说 ， 就 是 使 用 浏览 器 泻 染 方法 将 怜 取 动 态 网 页 变 成 怜 取 静态 网 页 。 


我 们 可 以 用 Python 的 Selenium 库 模拟 浏览 器 完成 抓 取 。Selenium 是 一 个 用 于 Web 应 用 程序 测试 的 工具 。Selenium 测 试 直接 运行 在 浏览 器 中 ， 浏 览 器 自动 按照 脚本 代码 做 出 单 击 、 输 入 、 打 开 、 验 证 
等 操作 ， 就 像 真正 的 用 户 在 操作 一 样 。 


4.3.1 Selenium 的 安装 与 基本 介绍 


Selenium 的 安装 非常 简单 ， 和 其 他 Python 库 一 样 ， 可 以 用 pip 安 装 。 


pip install selenium 


Selenium 的 脚本 可 以 控制 浏览 器 进行 操作 ， 可 以 实现 多 个 浏览 器 的 调用 ， 包 括 IE (7、8、9、10、11) 、Firefox、Safari、Google Chrome、Opera 等 。 常 用 的 是 Firefox， 因 此 下 面 的 讲解 也 以 
Firefox 为 例 ， 在 运行 之 前 需要 安装 Firefox 浏 览 器 。 


首先 ， 使 用 Selenium 打 开 浏 览 器 和 一 个 网 页 ， 代 码 如 下 : 


from selenium import webdriver 
driver = webdriver.Firefox() 
driver.get ("http://www.santostang.com/2018/07/04/hello-world/") 


运行 之 后 ， 发 现 程 序 报错 (如 果 没有 错误 则 下 面 无 需 修改 ) ， 错 误 为 : 
selenium.common.exceptions.WebDriverException:Message:'geckodriver'executable needs to be in PATH. 


在 Selenium 之 前 的 版 本 中 ， 这 样 做 是 不 会 报错 的 ， 但 是 Selenium 新 版 无 法 正常 运行 。 我 们 要 下 载 geckodriver， 可 以 到 https://github.com/mozilla/geckodriver/releases 下 载 相应 操作 系统 的 
geckodriver， 这 是 一 个 压缩 文件 ， 解 压 后 可 以 放 在 桌面 ， 如 C:\Users\santostang\Desktop\geckodriver.exe。 最 后 的 代码 如 下 : 


from selenium import webdriver 


driver = webdriver.Firefox(executable path = r'C:\Users\ santostang\Desktop\geckodriver.exe') 


# 把 上 述 地 址 改 成 你 电脑 中 geckodriver .exe 程 序 的 地 址 


driver.get ("http://www.santostang.com/2018/07/04/hello-world/") 


运行 后 会 打开 Hello World 这 篇 文章 的 页 面 ， 如 图 4-10 所 示 。 
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图 4-10 aR 


4.3.2 Selenium 的 实践 案例 

为 了 演示 Selenium 是 怎么 工作 的 ， 前 面 已 用 Chrome 浏 览 器 的 “检查 ”功能 解析 了 网 页 的 真实 地 址 ， 拒 取 了 博客 文章 评论 。 接 下 来 ， 我 们 将 使 用 Selenium 方 法 获取 同样 的 博客 评论 数据 ， 作 为 
Selenium 的 实践 案例 。 

由 于 Selenium 使 用 浏览 器 泻 染 ， 因 此 那些 评论 数据 已 经 演 染 到 了 HTML 代 码 中 。 我 们 可 以 使 用 Chrome“ 检 查 ” 的 方法 定位 元 素 位 置 。 


步骤 01 找到 评论 的 HTML 代 码 标签 。 使 用 Chrome 打 开 该 文章 页 面 ， 右 击 页 面 ， 在 弹出 的 快捷 菜单 中 单 击 “检查 ”命令 。 按 照 第 2 章 的 方法 ， 定 位 到 评论 数据 。 如 图 4-11 所 示 ， 可 以 看 到 该 数据 的 标签 


为 “第 21 条 测试 评论 ”。 


2018.07.13 08:08 


第 21 条 测试 评论 


— 0 
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v«div class-"reply-wrapper" data-seq-' 35440756" data-own-' 0" data-secr 
><div class-'"reply-top' »..-/div» 
w<div class="reply—bottom'> 
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图 4-11 找到 评论 的 HTML 代 码 标 签 


步骤 02 尝试 获取 一 条 评论 数据 。 在 原来 打开 页 面 的 代码 数据 上 使 用 以 下 代码 ， 获 取 第 一 条 评论 数据 。 在 下 面 代 码 中 ， driver.find_element_by_css_selector 是 用 CSS 选 择 器 查找 元 素 ， 找 到 class 为 'reply- 


content' 的 div 元 素 ; find element by tag name 则 是 通过 元 素 的 tag 去 寻找 ， 意 思 是 找到 comment 中 的 p 元 素 。 最 后 ， 输 出 p 元 素 中 的 text 文 本 。 


comment = driver.find element by css selector('div.reply-content') 
content = comment.find element by tag name('p') 
print (content.text) 


运行 上 述 代 码 ， 我 们 得 到 的 结果 是 错误 : “Message:Unable to locate element:div.reply-content”。 这 究竟 是 为 什么 呢 ? 


步骤 03 我 们 可 以 在 jupytet 中 键入 dtivet.page_soufce。 找 到 为 什么 没有 定位 到 评论 元 素 ， 通 过 排查 发 现 ， 原 来 代码 中 的 JavaSctipt 解 析 成 了 一 个 iftame: <iframe title="livere"scrolling="no"……>， 也 就 是 说 ， 所 
有 的 评论 都 装 在 这 个 框架 之 中 ， 里 面 的 评论 并 没有 解析 出 来 ， 所 以 我 们 才 找 不 到 div.teply-content 元 素 。 这 时 ， 需 要 加 上 对 iframe 的 解析 。 


driver.switch to.frame(driver.find element by css selector ("Iframe [title='livere']")) 
comment — driver.find element by css selector('div.reply-content') 

content = comment.find element by tag name('p') 

print (content.text) 


> 


v«div id-"lv-container" data-id-"city" data-uid="MTAyMC8yODU4My81MTUQ" 
> <script type="text/javascript”>..</script> == $0 
noscript> 为 正常 使 用 未 必 力 评论 功能 请 数 活 Javascript<ynoscript 
> <iframe src-"https://was.livere.me/get-uuid" title-"livere-uuid" id-"livere-uuid" style 
display: none;”>..</iframe 
v<iframe title-"livere" scrolling="no" frameborder-"Q" src-"https://was.livere.me/comment/ 


worldX2F&titlesHelloX20world!" id-"lv-comment-637" style-"min-width: 100%; width: 100px; 
height: 1611px; overflow: hidden; border: Opx; z-index: 124212;' 

> document 

/iframe 


图 4-12 ”评论 代码 在 iftame 框 架 中 


运行 上 述 代码 ， 我 们 可 以 得 到 最 上 面 的 一 条 评论 : “第 21 条 测试 评论 ”。 


4.3.3 Selenium 获 取 文 章 的 所 有 评论 


上 一 节 只 是 获取 了 一 条 评论 ， 如 果 要 获取 所 有 评论 ， 需 要 脚本 程序 能 够 自动 单 击 “+ 10 查 看 更 多 ”。 这 样 才能 够 把 所 有 评论 显示 出 来 。 


因此 ， 我 们 需要 找到 “+ 10 查 看 更 多 ”的 元 素 地 址 ， 然 后 让 selenium 模 拟 单 击 并 加 载 评论 。 具 体 代 码 如 下 : 


from selenium import webdriver 
import time 


driver = webdriver.Firefox(executable path = r'C:\Users\ santostang\Desktop\geckodriver.exe') 
driver.implicitly wait (20) # 隐 性 等 待 ， 最 长 等 20 秒 

# 把 上 述 地 址 改 成 你 电脑 中 geckodriver .exe 程 序 的 地 址 

driver.get ("http://www.santostang.com/2018/07/04/hello-world/") 

time.sleep (5) 


for i in range(0,3): 

# 下 滑 到 页 面 底部 

driver.execute script("window.scrollTo(0, document.body. scrollHeight);") 

+ 转换 iframe， 再 找到 查看 更 多 ， 点 击 

driver.switch to.frame(driver.find element by css selector ("iframe[title-'livere']")) 
load more = driver.find element by css selector ('button.more-btn') 

load more.click() 
+ 把 iframe 又 转 回去 
driver.switch to.default content () 
time.sleep (2) 


driver.switch to.frame(driver.find element by css selector("iframe[title-'livere']")) 
comments = driver.find elements by css selector('div.reply-content') 
for eachcomment in comments: 

content = eachcomment.find element by tag name('p') 

print (content.text) 


代码 的 前 面部 分 和 之 前 一 样 ， 用 来 打开 该 文章 页 面 。 第 一 个 for 循 环 用 来 把 所 有 的 评论 加 载 出 来 。 首 先 ， 把 页 面 用 driver.execute script("window.scrollTo(0,document.body.scrollHeight);") F7838Jra 
面 底部 ， 这 样 才 会 出 现 “+ 10 查 看 更 多 ”的 元 素 。 


接 下 来 ， 就 需要 用 driver.switch_ to.frame() 解 析 iframe， 使 用 driver.find_element by css selector(button.more-btn') 找 到 该 元 素 ， 然 后 使 用 .click0 方 法 模拟 单 击 并 加 载 ， 那 么 就 会 加 载 多 10 个 评 
论 。 因 为 解析 iframe 后 ， 下 滑 的 代码 就 用 不 了 了 ， 所 以 又 要 用 driver.switch_to.default_content0 转 回 为 本 来 的 未 解析 iframe。 使 用 time.sleep(2) 可 以 让 代码 等 待 2 秒 钟 ， 让 它 来 加 载 评 论 。 


用 for 循 环 加 载 3 页 的 评论 之 后 ， 那 么 就 可 以 提取 评论 了 。 


在 加 载 出 前 面 几 页 的 评论 之 后 ， 可 以 像 之 前 的 代码 一 样 ， 把 评论 提取 出 来 。 不 过 ， 首 先 还 是 要 用 driver.switch_to.frame() 解 析 下 已 经 转 回 去 的 iframe。 之 后 才 可 以 用 


driver.find elements by css _selector 提 取 评 论 。 


运行 完成 后 ， 打 印 出 来 的 结果 如 图 4-13 所 示 。 


人 aan 


图 4-13 ”输出 结果 


其 实 ，sSelenium 选 择 元 素 的 方法 有 很 多 ， 具 体 如 下 。 
: find element, by. css selector: 通过 元 素 的 class 选 择 ， 如 <div class='bdy-innef>test</div> 可 以 使 用 find_element_by_css_selector(div.bdy-inner) o 
: find. element by xpath: 通过 xpath 选 择 ， 如 <fotm id="loginForm"> "T VA4# JA] driver.find_element_by_xpath("//form[@id="'loginForm']") 。 
- find element by id: 通过 元 素 的 id 选择 ， 如 <div id='bdy-inn t</div> 可 以 使 用 driverfind_element_by id('bdy-inner). 
- find element by name: 通过 元 素 的 name 选 择 ， 如 <input name="usetname'"type="text"/ > 可 以 使 用 dtivetfind_element_by_name(passwotrd)) o 


: find element by link text: 通过 链接 地 址 选择 ， 如 <ahref="continue.html">Continue</a> 可 以 使 用 driver.find_element_by_link_text(Continue')。 


- find element by partial link. text: 通过 链接 的 部 分 地 址 选择 ， 如 <a href="continue.html">Continue</a> "T VA4# Jf] driver.find element by partial link. text('Conti). 


- find element by tag name: 通过 元 素 的 名 称 选 择 ， 如 <h1>Welcome</h1> 可 以 使 用 driver.find_element_by_tag_name('h1')。 
- find, element. by class name: 通过 元 素 的 class 选 择 ， 如 <p class="content">Site content goes here.</p> 可 以 使 用 driver.find_element_by_class_name('content')。 
有 时 ， 我 们 需要 查找 多 个 元 素 。 上 述 例子 就 查找 了 所 有 的 评论 。 因 此 ， 也 有 对 应 的 元 素 选 择 方法 ， 就 是 在 上 述 的 element 后 加 上 s， 变 成 elements。 
find elements by name 
find elements by xpath 
find elements by link text 
find elements by partial link text 
find elements by tag name 
find elements by class name 
find elements by css selector 
其 中 ，xpath 和 css_selector 是 比较 好 的 方法 ， 一 方面 比较 清晰 ， 另 一 方面 相对 其 他 方法 定位 元 素 比 较 准 确 。 
在 上 述 例子 中 ， 我 们 使 用 了 selenium 的 click 操 作 元 素 方法 。 常 见 的 操作 元 素 方法 如 下 : 
Clear: 清除 元 素 的 内 容 。 
: send, keys: 模拟 按键 输入 。 
| Click: 单 击 元 素 。 


d Submit: 提交 表单 。 


user = driver.find element by name ("username") # 找 到 用 户 名 输入 框 
user.clear # 清 除 用 户 名 输入 框 内 容 

user.send keys("1234567") # 在 框 中 输入 用 户 名 
pwd = driver.find element by name ("password")  ”# 找 到 密码 输入 框 
pwd.clear # 清 除 密码 输入 框 内 容 
pwd.send keys ("******") # 在 框 中 输入 密码 

driver.find element by id("loginBtn").click()  # 单 击 登录 


Hil 


上 述 代码 是 一 个 自动 登录 程序 截取 的 一 部 分 。 从 代码 中 可 以 看 到 ， 可 以 用 Selenium 操 作 元 素 的 方法 对 浏览 器 中 的 网 页 进行 各 种 操作 ， 包 括 登 录 。 


selenium 除 了 可 以 实现 简单 的 鼠标 操作 ， 还 可 以 实现 复杂 的 双击 、 拖 搜 等 操作 。 此 外 ，selenium 还 可 以 获得 网 页 中 各 个 元 素 的 大 小 ， 甚 至 可 以 进行 模拟 键盘 的 操作 。 由 于 篇 幅 有 限 ， 有 兴趣 的 读者 可 
以 到 Selenium 的 官方 网 站 查看 相关 文档 : http://selenium-python.readthedocs.io/index.html, 


43.4 ”Selenium 的 高 级 操作 


使 用 selenium 和 使 用 浏览 器 “检查 ”的 方法 聆 取 动态 网 页 相 比 ， 因 为 Selenium 要 在 整个 网 页 加 载 出 来 后 才 开始 怜 取 内 容 ， 速 度 往往 较 慢 。 


因此 ， 在 实际 使 用 中 ， 如 果 使 用 浏览 器 的 “检查 ”功能 进行 网 页 的 逆向 工程 不 是 很 复杂 ， 就 最 好 使 用 浏览 器 的 “检查 ”功能 。 不 过 ， 也 有 些 方法 可 以 用 Selenium 控 制 浏 览 器 加 载 的 内 容 ， 从 而 加 快 
Selenium 的 拒 取 速度 。 常 用 的 方法 有 : 


(1) 控制 CSS 的 加 载 。 
(2) 控制 图 片 文件 的 显示 。 
(3) 控制 JavaScript 的 运行 。 


(1) 控制 CSS。 因 为 抓 取 过 程 中 仅仅 抓 取 页 面 的 内 容 ，CSS 样 式 文件 是 用 来 控制 页 面 的 外 观 和 元 素 放 置 位 置 的 ， 对 内 容 并 没有 影响 ， 所 以 我 们 可 以 限制 网 页 加 载 CSS$， 从 而 减少 抓 取 时 间 。 其 代码 如 


# 控制 css 
from selenium import webdriver 


fp = webdriver.FirefoxProfile() 
fp.set preference ("permissions.default.stylesheet",2) 


driver = webdriver.Firefox(firefox profile-fp, executable path = r'C:\Users\santostang\Desktop\geckodriver.exe') 
# 把 上 述 地 址 改 成 你 电脑 中 geckodriver .exe 程 序 的 地 址 
driver.get ("http://www.santostang.com/2018/07/04/hello-world/") 


在 上 述 代 码 中 ， 控 制 css 的 加 载 主要 用 fp=webdriver.FirefoxProfile0 这 个 功能 。 设 定 不 加 载 css， 使 用 fp.set_preference("permissions.default.stylesheet",2)。 之 后 使 用 
webdriver.Firefox(firefox_profile=fp) 就 可 以 控制 不 加 载 css 了 。 运 行 上 述 代码 ， 得 到 的 页 面 如 图 4-14 所 示 。 


国 Hello world! 


Cg () Bis] wwwsantastang.com/2018/07/04/helle-world/ vo D 站 | 


Hello world! 


作者 : santostang 分 类: Python AIEE Aphia: 2018-07-04 23:26 


Welcome to WordPress. This is your first post. Edit or delete it, then start writing! 


各 位 读者 ， 由 于 网 易 云 跟 帖 在 本 书 出 版 后 已 经 迟 止 服务 ， 书 中 的 第 四 章 已 经 无 法 使 用 。 所 以 我 特 本 书 的 评论 系 绕 挽 成 了 来 必 力 ， 现 在 已 经 在 博客 和 知 理 上 更 新 了 新 写 的 第 四 章 。 请 
查阅 : 


4,1 动态 网 页 折 取 (解析 让 空地 4H} + selenium) 
4.2 Mere CHR HEN 


4 3 18i selenium SEL 


评论 输入 领域 
把 照片 拖 搜 到 这 里 
SIE mp. | 
apen stic ker 


open qi 


« SNSSSE? 
s HHHOH RAEE SNS Eee Fie, 
sa TEFBE T RR eae eS ae. 
通过 共享 评论 ,与 好 友 浏 通 互 动 ， 
来 民力 (| waeRel 星 了 
art 
杜 变 网 站 登录 | | mie 


EF RIEBE ? 


* BPE Fics ? 
« TARTS HIBS, PREP EE eee AS see FARRA AS EE], 


图 4-14 ”控制 CSS 的 页 面 


(2) 限制 图 片 的 加 载 。 如 果 不 需 要 抓 取 网 页 上 的 图 片 ， 最 好 可 以 禁止 图 片 加 载 ， 限 制图 片 的 加 载 可 以 帮助 我 们 极 大 地 提高 网 络 聆 虫 的 效率 。 因 为 网 页 上 的 图 片 往往 较 多 ， 而 且 图 片 文件 相对 于 文字 、 
CSS、Javascript 等 其 他 文件 都 比较 大 ， 所 以 加 载 需 要 较 长 时 间 。 


# 限制 图 片 的 加 载 


from selenium import webdriver 


fp = webdriver.FirefoxProfile() 
fp.set preference ("permissions.default.image",2) 


driver = webdriver.Firefox(firefox profile-fp, executable path = r'C:\Users\santostang\Desktop\geckodriver.exe') 
# 把 上 述 地 址 改 成 你 电脑 中 geckodriver .exe 程 序 的 地 址 
driver.get ("http://www.santostang.com/2018/07/04/hello-world/") 


与 限制 css 类 似 ， 限 制图 片 的 加 载 可 以 用 fp.set_preference("permissions.default.image",2)。 运 行 上 述 代码 ， 得 到 的 页 面 如 图 4-15 所 示 。 


EJ Hello world! 


C Ù (D Bii) wwwsantostang.com/2013/07/04/hello-world/ 


<> 


唐 松 $antos 


Hello world! 


FA: Santostang aoc. Pytho der “Ei gl £0) 8-0-04 23:26 
Welcome to WordPress. This is your first post. Edit or delete it, then start writing! 


各 位 起 者， 由 于 网 易 云 跟 帖 在 本 书 出 版 后 已 经 停止 服务 ， 书 中 的 第 四 章 已 经 无 法 便 用 。 所 以 我 将 
本 书 的 评论 素 统 换 成 了 来 必 力 。 现 在 已 经 在 博客 和 知 平 上 更 辆 了 新 写 的 第 四 章 。 访 查阅 : 


4.1 动态 网 页 抓 职 (解析 真实 地 址 + selenium) 
4.2 能 析 直 实地 址 抓 取 
English5ite 4.3 mEidselenium Shweta 


TEAS 


ASE: ASB: PEER 


E sss 2015 1113 11:16 
Chrom Neff , SUREE , RüscmFHESChrom, fad 3, SERA , IX Pee 
压 肥 scripts 中 ， 就 可 以 了 ， 近 起 网 上 其 他 帖子 可 以 打开 iirefox 讽 [各 器 


ü 


bryou 2012.11.08 03:28 
wordpress EE FHIM 


图 4-15 ”限制 显示 图 片 
(3) 控制 JavaScript 的 运行 。 如 果 需 要 抓 取 的 内 容 不 是 通过 JavaScript 动 态 加 载 得 到 的 ， 我 们 可 以 通过 禁止 JavaScript 的 执行 来 提高 抓 取 的 效率 。 因 为 大 多 数 网 页 都 会 利用 JavaScript 异 步 加 载 很 多 内 


容 ， 这 些 内 容 不 仅 是 我 们 不 需要 的 ， 它 们 的 加 载 还 浪费 了 时 间 。 


# 限制 JavaScript 的 执行 
from selenium import webdriver 


fp = webdriver.FirefoxProfile() 
fp.set preference ("javascript.enabled", False) 


driver = webdriver.Firefox(firefox profile-fp, executable path = r'C:NUsersNsantostang M Desktop Ngeckodriver.exe') 
5 Ej 


e= 
# 把 上 述 地 址 改 成 你 电脑 中 geckodriver .exe 程 序 的 地 址 
driver.get ("http://www.santostang.com/2018/07/04/hello-world/") 


这 3 种 方法 哪 一 种 最 节省 时 间 呢 ?通过 对 上 述 3 种 方法 的 测试 ， 党 试 加 载 博客 的 主页 50 次 ， 并 对 加 载 时 间 取 平均 值 。 这 3 种 方法 各 自 加 载 所 需 时 间 如 表 4-1 所 示 。 
R41 不 同方 法 加 载 所 需 的 时 间 
时 间 ”相对 不 限制 的 时 间 比 
52.278 Fb 
50.500 Fb 


46.274 Fb 


51.461 fb 1.02 
IRA CSS. FAHY. JavaScript 加 载 | 41.878 fb 


通过 上 述 结果 ， 我 们 发 现 3 种 限制 方法 都 能 使 孢 虫 加载 网 页 的 速度 有 所 加 快 ， 其 中 全 部 限制 对 于 加 载 速 度 的 提升 效果 最 好 。 由 于 3 种 方法 的 时 间 相 差 并 不 是 很 多 ， 再 加 上 网 络 环境 和 随机 变量 的 原因 
此 我 们 并 不 能 肯定 哪 种 方法 更 好 。 具 体 的 加 载 速 度 提升 还 得 看 相应 的 网 页 ， 若 网 页 的 图 片 比较 多 ， 则 限制 图 片 的 加 载 肯 定 效果 很 好 。 


如 果 能 够 限制 ， 那 么 最 好 限制 多 种 加 载 ， 这 样 的 效果 最 好 。 


44 Selenium 爬 虫 实践 : 深圳 | 短 租 数 据 


本 章 实 践 项 目的 目的 是 获取 Airbnb 深 圳 前 5 页 的 短 租房 源 。 作 为 Airbnb 的 超 锣 房东 ， 笔 者 特别 喜欢 Airbnb 的 理念 ， 同 时 需要 监控 和 了 解 竞 争 对 手 的 房屋 名 称 和 价格 ， 这 样 才能 让 自己 的 房子 有 竞争 力 。 


本 项 目 需要 获取 前 5 页 短 租 房 源 的 名 称 、 价 格 、 评 价 数量 、 房 屋 类 型 、 床 数量 和 房客 数量 。 网 页 地 址 为 : https://zh.airbnb.com/s/Shenzhen--China/homes。 


4.4.1 网 站 分 析 


打开 Airbnb 深 圳 前 200 短 租房 源 的 网 页 ， 右 击 页 面 任意 位 置 ， 在 弹出 的 快捷 菜单 中 单 击 “ 检 查 ” 命 令 ， 如 图 4-16 所 示 。 注 意 要 关闭 地 图 。 
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A416 深圳 前 200 短 租房 源 的 网 页 


在 打开 的 代码 中 ， 我 们 可 以 找到 各 个 数据 所 在 的 HTML 代 码 的 位 置 。 首 先 可 以 找到 一 个 房子 的 所 有 数据 ， 如 图 4-17 所 示 。 


图 4-17 一 个 房子 的 所 有 数据 


得 到 某 房子 所 有 数据 的 地 址 为 : div._gig1e7。 


然后 在 这 些 数 据 中 定位 价格 数据 ， 地 址 为 div. 1yarz4r， 如 图 4-18 所 示 。 
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图 4-18 ”定位 价格 数据 


之 后 定位 评价 数 ， 地 址 为 span. 1cy09umr， 如 图 4-19 所 示 。 


icy@9umr | 19.59x16 


图 4-19 ”定位 评价 数据 


图 4-20 ”定位 房屋 名 称 数据 


最 后 定位 房间 类 型 、 房 间 数 量 ， 地 址 为 span. 14ksqu3j， 如 图 4-21 所 示 。 


108.16116 P 


图 4-21 定位 房间 类 型 、 房 间 数量 


这 样 ， 通 过 找到 各 个 数据 定位 的 class 可 以 得 到 如 表 4-2 所 示 的 表格 。 由 于 Airbnb 的 元 素 定 位 可 能 会 进行 变更 ， 下 面 表格 的 元 素 定 位 未 必 准确 ， 所 以 请 关注 笔者 博客 了 解 最 新 的 代码 。 


数据 


东 房 子 的 所 有 数据 
L 


d 


44.2 MEZ 


通过 以 上 分 析 ， 我 们 已 


表 4-2 ”各 个 数据 定位 的 class 


Class 


么 能 够 获得 各 个 数据 所 在 的 地 址 了 ， 接 下 来 用 Selenium 获 取 Airbnb 第 一 页 的 数据 。 其 代码 如 下 : 


«RR _gigle7 
EE 
leyO9umr 


import time 


from selenium import webdriver 


driver = webdriver.Firefox(executable path = r'C:\Users\ santostang\Desktop\geckodriver.exe') 
# 把 上 述 地 址 改 成 你 电脑 中 geckodriver .exe 程 序 的 地 址 

# 在 虚拟 浏览 器 中 打开 Airbnb 页 面 

driver.get ("https://zh.airbnb.com/s/Shenzhen--China/homes") 


# 找 到 页 面 中 所 有 的 出 租房 


rent list = driver. 


find elements by css selector('div. gigle7') 


# 对 于 每 一 个 出 租房 


# 找 到 评论 数量 
try: 
comment 
comment 
except: 


comment 
# 找 到 价格 

price 
price 


# 找 到 名 称 


name = eachhouse. 
name = name. 


# 找 到 房屋 类 


for eachhouse in rent list: 


eachhouse.find element by css selector ('span. lcy09umr') 
comment.text 


eachhouse. 1 
price.text 


text 


型 ， 大 小 


Find element pu Selector div. ares ) 
.replace ("filf&", "").replace("fif&", ""). replace("\n", "") 


find element by css selector('div. vbshb6') 


details = eachhouse.find element by css selector ('small. 14ksqu3j') 


details = de 
house type = detai 
bed number = detail 


tails.text 


ls.split(" ? ")[0] 
s.split(" ? ") [1] 


print (comment, price, name, house type, bed number) 


首先 ， 使 用 Selenium 打 开 该 页 面 ， 再 使 用 Selenium 的 css selector 获 取 所 有 房屋 的 div 数 据 ， 也 就 是 driver.find_elements by css selector('div. gig1e7")。 在 得 到 所 有 房屋 的 列表 后 ， 用 for 循 环 从 中 一 


个 一 个 解析 需要 的 数据 。 


根据 4.4.1 小 节 从 网 站 分 析 找 到 的 列表 可 以 获得 评论 数 、 价 格 、 房 屋 名 称 、 


是 类 似 “ 每 晚 价格 半 291”， 


房屋 种 类 、 床 数量 和 房客 数量 的 地 址 ， 在 这 里 仍然 使 用 css selector 从 中 找到 这 些 数 据 。 值 得 注意 的 是 ， 由 于 价格 数据 提取 出 来 


所 以 我 们 需要 用 price.text.replace(" 每 晚 ","").replace(" 价 格 ","").replace("\n","") 替 换 掉 所 有 的 无 用 字符 ， 只 保留 价格 符号 和 数字 。 另 外 ， 由 于 房屋 种 类 、 床 数量 都 在 元 素 small 
里 ， 所 以 要 用 details.split("?")， 将 字符 串 变 成 列表 ， 之 后 再 提取 其 中 的 房屋 种 类 和 床 数量 。 


运行 上 述 代 码 ， 得 到 的 结果 是 


180 半 291【 宫 遇 】17-KKmall 楼 上 一 房 一 厅 --【Loft 时 代 】 整 套 公寓 1 室 1 卫 1 床 


99 闻 215 推 荐 : 香 蜜 湖 温 馨 公寓 ( 双 地 铁 )ShenZhen FuTian 整 套 酒店 式 公 寓 1 室 1 卫 1 床 


87 X 167 Loiret EAS 


合 住房 间 1 室 1 卫 1 床 


82 ¥ 368 LADYMA| 原 宿 摩 洛 哥 风 格 福田 CBD 会 展 中心 # 家 庭 影院 CocoPark 福 田 皇 岗 口岸 岗 厦 地 铁 口 整套 公寓 1 室 1 卫 1 床 


150 半 319【 十 二 微 钱 】14J-KKmall 楼 上 的 城市 微 魔 方 整 套 公 寅 1 室 1 卫 1 床 


153 半 319【 十 二 微 好 】32Q-KKmall 楼 上 的 天 空 微 城堡 整套 公寓 1 室 1 卫 1 床 


仅仅 获取 一 个 页 面 还 不 够 ， 我 们 要 获取 前 面 20 页 的 所 有 房屋 ， 因 此 需要 找到 不 同 页 数 的 网 页 地 址 的 模式 。 打 开 第 二 页 ， 发 现 网 页 地 址 变 成 了 : 


https:;//zh.airbnb.com/s/Shenzhen--China/homes?refinement paths?65B?65D-962Fhomes&allow override%5B%5D=&s tag=WU97x8Ms&section_offset=4&items_offset=18 


打开 第 三 页 ， 网 页 地 址 变 成 了 : 


https://zh.airbnb.com/s/Shenzhen--China/homes?refinement paths?65B965D-962Fhomes&allow override%5B9%5D=&s tag- WU97x8Ms&risection offset=4&items offset=36 


上 面 的 网 址 很 长 ， 似 乎 很 难 发 现 规律 ， 其 实 变 化 只 是 最 后 的 items_offset=， 每 次 增加 一 页 只 是 ittems_offset 增 加 了 18。 于 是 ,我 们 可 以 猜测 其 他 的 参数 其 实 并 没 
items_offset 这 个 参数 看 看 会 不 会 有 结果 ， 于 是 把 第 二 页 的 地 址 改 为 : https://zh.airbnb.com/s/Shenzhen--China/homes?items offset=18， 输 入 浏览 器 地 址 栏 ， 


影响 网 页 结果 ， 那 么 如 果 只 留 下 
进入 网 址 发 现 是 一 样 的 结果 


IMRAD, RSCNGRUBOWGEElUUitems offset3ep/tBNLBSUS2RGRELA18, ANER 5S TAISEN: 


from selenium import webdriver 
import time 


driver = webdriver.Firefox (executable path = r'C:\Users\ santostang\Desktop\geckodriver.exe') 
# 把 上 述 地 址 改 成 你 电脑 中 geckodriver .exe 程 序 的 地 址 
for i in range(0,5): 
link = "https://zh.airbnb.com/s/Shenzhen--China/homes?items offset=" + str(i *18) 
driver.get (link) ~ 
rent list = driver.find elements by css selector ('div. gigle7') 


for eachhouse in rent list: 


ry: 
comment = eachhouse.find element by css selector ('span. 1cy09umr ' ) .text 
except 
comment = 0 
price = eachhouse.find element by css selector ('div. lyarz4r') 
price = price.text.replace ("#Hi", "").replace("fHf&", "").replace("NMn", "") 


name = eachhouse.find element by css selector('div. vbshb6') 
name — name.text 
details = eachhouse.find element by css selector ('small. 14ksqu3j') 


house type = details.split(" ? ")[0] 
bed number = details.split(" ? ") [1] 
print (comment, price, name, house type, bed number) 


time.sleep (5) 


fr EXRIVRBHR, Sell BUB CRSID E T — 83, MMR SUA SURGE. SURI RUA, KEES. 


4.4.3 ”自我 实践 题 


读者 若 有 时 间 ， 可 以 实践 进 阶 问题 : 将 Selenium 的 控制 CSS 加 载 、 控 制图 片 加 载 和 控制 lavaScript 加 载 加 入 本 实践 项 目的 代码 中 ， 从 而 提升 候 虫 的 速度 。 


第 5 草 解析 网 页 


我 们 已 经 能 够 使 用 reduests 库 从 网 页 把 整个 源 代 码 爬 取 下 来 了 ， 接 下 来 需要 从 每 个 网 页 中 提取 一 些 数据 。 本 章 主 要 介绍 使 用 3 种 方法 提取 网 页 中 的 数据 ， 分 别 是 正则 表达 式 、BeautifulSoup 和 lxml。 


3 种 方法 各 有 千秋 ， 想 要 快速 学 习 的 读者 可 以 先 挑 选 一 种 自己 喜欢 的 方法 学 习 ，3 种 方法 都 能 够 解析 网 页 。 你 也 可 以 先 阅读 本 章 的 最 后 一 节 ， 在 了 解 3 种 方法 各 自 的 优 缺点 后 ， 再 选择 一 种 方法 开始 学 习 。 


5.1. ”使 用 正则 表达 陈 解析 网 页 


正则 表达 式 是 对 字符 串 操 作 的 一 种 逻辑 公式 ， 就 是 用 事先 定义 好 的 特定 字符 和 这 些 特 定 字符 的 组 合 组 成 一 个 规则 字符 串 ， 这 个 规则 字符 串 用 来 表达 对 字符 串 的 一 种 过 滤 逻 辑 。 举 一 个 简单 的 例子 ， 假 设 
字符 串 为 我们 爱 吃 苹果 ， 也 爱 吃香 死 '， 我 们 需要 提取 其 中 的 水 果 ， 用 正则 表达 式 匹 配 ' 爱 吃 ' 后 面 的 内 容 就 可 以 找到 苹果 和 RET. 


在 提取 网 页 中 的 数据 时 ,我 们 可 以 先 把 源 代码 变 成 字符 串 ， 然 后 用 正则 表达 式 匹 配 想 要 的 数据 。 刚 刚 接触 正则 表达 式 时 可 能 会 党 得 星 深 难 懂 ， 但 是 使 用 正则 表达 式 可 以 迅速 地 用 极 简 单 的 方式 达到 字符 
串 的 复杂 控制 。 


表 5-1 是 常见 的 正则 字符 和 含义 。 如 果 想 了 解 更 为 详细 的 正则 表达 式 文 档 ， 可 以 访问 : https://docs.python.org/3/library/re.html, 


表 5-1 常见 的 正则 字符 和 含义 


模式 ”描述 模式 | 描述 

o | 匹配 任意 字符 ， 除 了 换行 符 匹配 空白 字符 

+ | 匹配 前 一 个 字符 0 次 或 多 次 匹配 任何 非 空白 字符 
匹配 前 一 个 字符 1 次 或 多 次 匹配 数字 ， 等 价 于 [0-9] 


? 匹配 前 一 个 字符 0 次 或 1 次 匹配 任何 非 数字 ， 等 价 于 [^0-9] 
^ 匹配 字母 数字 ， 等 价 于 [A-Za-z0-9 ] 
$ 匹配 非 字母 数字 ， 等 价 于 [^A-Za-z0-9 ] 
( 匹配 括号 内 的 表达 式 ， 也 表示 一 | [] 用 来 表示 一 组 字符 
个 组 


首先 ， 我 们 介绍 Python 正则 表达 式 的 3 种 方法 ， 分 别 是 re.match、re.search 和 re.findall。 


5.1.1 re.match75;X 


re.match 的 意思 是 从 字符 串 起 始 位 置 匹配 一 个 模式 ， 如 果 从 起 始 位 置 匹配 不 了 ，match() 就 返回 none。 


re.match 的 语法 为 re.match(pattern,string,flags=0)， 其 中 pattern 是 正则 表达 式 ， 包 含 一 些 特殊 的 字符 ，string 为 要 匹配 的 字符 串 ，flags 用 来 控制 正则 表达 式 的 匹配 方式 ， 如 是 否 区 分 大 小 写 、 多 行 


匹配 等 。 
例如 ， 我 们 想 使 用 两 个 字符 串 匹配 并 找到 匹配 的 位 置 ， 可 以 使 用 : 


import re 
m = re.match('www', 'www.santostang.com') 
Ww H Y 


print ("匹配 的 结果 : ", m 

print (" 匹 配 的 起 始 与 终点 : ", m.span()) 
print (" 匹 配 的 起 始 位 置 : ", m.start()) 
print (" 匹 配 的 终点 位 置 : ", m.end()) 
得 到 的 结果 为 


匹配 的 结果 : « sre.SRE Match object;span=(0,3),match='www'> 
匹配 的 起 始 与 终点 : (0,3) 

匹配 的 起 始 位 置 : 0 

匹配 的 终点 位 置 : 3 


上 述 例子 中 的 pattern 只 是 一 个 字符 串 ， 我 们 也 可 以 把 pattern 改 成 正则 表达 式 ， 从 而 匹配 具有 一 定 模式 的 字符 串 ， 例 如 : 


line = "Fat cats are smarter than dogs, is it right?" 
m — re.match( r'(.*) are (.*?) ', line) 


print (匹配 的 整 句 话 !，m.group (0) ) 
print ( "匹配 的 第 一 个 结果 '，m.group (1)) 
print (匹配 的 第 二 个 结果 '，m.group (2) ) 
print ('[ 匹 配 的 结果 列表 '，m.groups () ) 
得 到 的 结果 为 


匹配 的 整 句 话 Fat cats are smarter 

匹配 的 第 一 个 结果 Fat cats 

匹配 的 第 二 个 结果 smarter 

匹配 的 结果 列表 ('Fat cats','smarter') 

为 什么 这 里 (.*) 匹 配 了 Fat cat， 而 (*?) 只 匹配 了 smarter 呢 ? 


这 就 涉及 正则 表达 式 匹 配 中 默认 的 贪 禁 模式 总 是 尝试 匹配 尽 可 能 多 的 字符 。 在 上 述 例子 中 ，(.*)are 会 尽量 匹配 最 多 的 字符 ， 因 此 把 Fat cat 匹 配 了 。 非 仿 梦 模式 则 相反 ， 总 是 党 试 匹 配 尽 可 能 少 的 字 
符 ，are(.”?) 会 尽量 匹配 尽量 少 的 字符 ， 因 此 把 smarter 匹 配 了 。 


为 什么 要 在 match 的 模式 前 加 上 r 呢 ? 

n(.*)are(.*?).* 前 面 的 [意思 是 raw string， 代 表 纯 粹 的 字符 串 ， 使 用 它 就 不 会 对 引号 里 面 的 反 斜 杠 \ 进行 特殊 处 理 。 要 解释 清楚 ， 可 以 举 个 例子 。 例 如 : 
print ('Hello\World\nPython') 

结果 为 : 

Hello\World 

Python 

可 以 看 到 里 面 的 \n 已 转 义 为 换行 符 ， 但 是 \W 没有 转 义 ， 这 是 因为 \W 在 字符 串 转 义 中 没有 对 应 特殊 字符 。 如 果 现 在 需要 不 对 \n 转 义 ， 原 封 不 动 输出 'Hello\World\nPython 呢 ? 
第 一 种 方法 我 们 可 以 写成 

print ('Hello\World\\nPython") 

两 个 反 斜 杠 的 “字符 串 转 义 ”会 把 "\\" 转 义 为 \"。 

第 二 种 方法 是 使 用 "… ， 原 始 字符 串 的 方法 ， 不 会 对 引号 里 面 的 反 斜 杠 \ 进行 特殊 处 理 。 


print (r'Hello\World\nPython') 


以 上 是 字符 串 转 义 中 raw string 的 用 法 ， 那 么 正则 表达 式 的 转 义 怎么 用 呢 ? 


import re 


string = r'2\7' 
m = re.match(' (\d+)\\\\', string) 
print (m.group(1)) # 结果 为 : 2 


n = re.match(r'(\d+)\\', string) 
print (n.group(1)) # 结果 为 : 2 


首先 需要 知道 的 是 ， 正 则 表达 式 字 符 串 需要 经 过 两 次 转 义 ， 这 两 次 分 别 是 上 面 的 “字符 串 转 义 ”和 “正则 转 义 ” 


正则 表达 式 如 果 不 用 "… 方 法 的 话 ， 就 需要 进行 “字符 串 转 义 ”和 “正则 转 义 ”。 在 上 述 案 例 中 ， 需 要 匹配 ~2\7 中 的 字符 \" ， 使 用 编程 语言 表示 的 正则 表达 式 里 就 需要 4 个 反 斜 杠 \\\\": 前 两 个 反 斜 
杠 "\\" 和 后 两 个 反 斜 枉 \\" 各 自在 字符 串 转 义 成 一 个 反 斜 枉 "/"， 所 以 4 个 反 斜 杠 A 就 转 义 成 了 两 个 反 斜 \\"， 这 两 个 反 斜 杠 \\" 最 终 在 正则 表达 式 转 义 成 一 个 反 斜 枉 、\"。 


如 果 使 用 "… 方法 的 话 ， 不 用 进行 字符 串 转 义 ， 直 接 进 入 第 二 步 “ 正 则 转 义 ”， 在 正则 转 义 中 "\\" 被 转 义 为 了 \"， 这 个 例子 中 可 以 使 用 上 \\" 表示。 


5.1.2 re.search7j iz 


re.match 只 能 从 字符 串 的 起 始 位 置 进行 匹配 ， 而 re.search 扫 描 整 个 字符 串 并 返回 第 一 个 成 功 的 匹配 ， 例 如 : 


import re 

m match = re.match('com', 'www.santostang.com') 
m search = re.search('com', 'www.santostang.com') 
print (m match) 

print (m search) 


< sre.SRE Match object;span=(15,18),match='com'> 


其 他 方面 re.search 与 re.match 一 样 ， 可 以 参照 上 面 的 re.match 来 操作 。 


5.1.3 re.findall 方 法 


上 述 match 和 search 方 法 中 ， 我 们 只 能 找到 一 个 匹配 所 写 的 模式 ， 而 findall 可 以 找到 所 有 的 匹配 ， 例 如 : 


import re 

m match = re.match('[0-9]+', '12345 is the first number, 23456 is the sencond') 

m search = re.search('[0-9]+', 'The first number is 12345, 23456 is the sencond') 
m findall = re.findall('[0-9]+', '12345 is the first number, 23456 is the sencond') 
print (m match.group()) 

print (m search.group()) 

print (m findall) 


上 述 代 码 的 '[0-9]+ 表示 任意 长 度 的 数字 ， 然 后 在 后 面 的 字符 串 中 进行 匹配 。 


12345 

12345 

['12345','23456'] 

findalI 与 match、search 不 同 的 是 ，findall 能 够 找到 所 有 匹配 的 结果 ， 并 且 以 列表 的 形式 返回 。 当 怜 取 博客 文章 的 标题 时 ， 如 果 提 取 的 不 只 是 一 个 标题 ， 而 是 所 有 标题 ， 就 可 以 用 findall。 


博客 的 文章 标题 部 分 的 HTML 代 码 如 下 : 


<header class="clearfix"> 
«hl class-"post-title"»«a href="http://www.santostang.com/2018/07/04/hello-world/">Hello world!«/a»«/hl» 
«div class-"post-meta"» 
<span class-"meta-span"»«i class="fa fa-calendar"»«/i» 07H04H«/span» 
<span class-"meta-span"»«i class="fa fa-folder-open-o"»«/i» «a href="http://www.santostang.com/category/python-%e7 %bd%91%e7 tbb% 9c%e7 S88 %acte8S9I9I%ab/" rel-"category tag" 
<span class="meta-span"><i class="fa fa-commenting-o"»«/i» <a href="http://www.santostang.com/2018/07/04/hello-world/#comments">1&A iF w</a></span> 
<span class="meta-span hidden-xs"><i class="fa fa-tags" aria-hidden="true"></i> </span> 
</div> 
</header> 


抓 取 博客 主页 所 有 文章 标题 的 Python 代码 如 下 : 


import requests 
import re 


link = "http://www.santostang.com/" 

headers = ('User-Agent' : 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'} 
r — requests.get(link, headers- headers) 

html = r.text 

title list = re.findall('«h1l class-"post-title"»«a href-.*?»(.*?)«/a»«/h1l»',html) 

print (title list) 


以 上 代码 用 于 提取 博客 主页 上 所 有 文章 的 标题 ， 这 里 使 用 findall 匹 配 ， 使 用 '<h1 class-"post-title"» «a href=.*?>(.*?)</a> </h1>' 正 则 表示 式 表示 对 所 有 满足 此 条 件 的 结果 。 带 有 括号 ， 表 示 只 提取 
其 中 的 (.”?) 部 分 。 运 行 代码 ， 得 到 的 结果 是 : 


[4.3 通 过 selenium 模 拟 浏览 器 抓 取 ','4.2 解 析 真 实地 址 抓 取 ', 第 四 章 -动态 网 页 抓 取 ( 解 析 真 实地 址 +selenium)'' «MAR: 从 入 门 到 实践 》 一 书 勘 误 ','Hello world! 


这 样 就 把 所 有 的 标题 提取 出 来 了 。 如 果 还 想 更 加 深入 地 学 习 正 则 表达 式 ， 或 者 在 平时 经 常用 到 正则 表达 式 ， 可 以 进入 Regular Expression 101 网 站 学 习 ， 网 站 地 址 为 https://regex101.com/。 


5.2 ”使 用 BeautifulSoup 解 析 网 页 


BeautifulSoup 可 以 从 HTML 或 XML 文 件 中 提取 数据 。 根 据 其 官方 文档 的 描述 ，Beautiful Soup 可 以 提供 一 些 简单 的 、Python 式 的 函数 用 来 处 理 导 航 、 搜 索 、 修 改 分 析 树 等 。BeautifulSoup 是 一 个 工 
具 箱 ， 通 过 解析 文档 为 用 户 提供 需要 抓 取 的 数据 ， 因 为 简单 ， 所 以 不 需要 多 少 代 码 就 可 以 写 出 一 个 完整 的 应 用 程序 。 


下 面 将 介绍 BeautifulSoup 4 中 的 主要 特性 ， 并 且 提 供 示 例 来 展示 它 适 合 做 什么 、 怎 样 使 用 。 


5.2.1 BeautifulSoup 的 安装 


安装 BeautifulSoup 非 常 简单 ， 使 用 pip 安 装 即 可 。 在 cmd 中 输入 : 


pip install bs4 


之 后 按 回 车 键 就 可 以 成 功 安装 了 。 
Beautiful Soup 支 持 Python 标 准 库 中 的 HTML 解 析 器 ， 还 支持 一 些 第 三 方 的 解析 器 。 
表 5-2 列 出 了 主要 的 解析 器 及 其 优 缺 点 。 


表 5-2 解析 器 及 其 优 缺 点 


使 用 方法 
Python 的 内 置 标准 库 
执行 速度 适中 
文档 容错 能 力 强 


Python BeautifulSoup(markup, "html.par 
标准 库 | ser" 


使 用 方法 
Lxml 速度 快 


HTML BeautifulSoup(markup, 文档 容错 能 力 强 
fik AT at bs4 自 带 《极力 推荐 ) 
Ixml BeautifulS oup(markup, ["Ixml", 速度 快 


XML "xml"]) a ERU 
fit as | BeautifulSoup(markup, "xml") 叭 一文 持 XML HIMEN ss 
最 好 的 容错 性 


以 浏览 器 的 方式 解析 文档 
生成 HTML5 格式 的 文档 


BeautifulS oup(markup, "html5li 


htmlslib | bn 


不 依赖 外 部 扩展 


使 用 lxml 的 解析 器 将 会 解析 得 更 快 ， 这 里 也 推荐 大 家 使 用 。 


5.2.2 ”使 用 BeautifulSoup 获 取 博 客 标题 


前 面 我 们 使 用 re 正则 表达 式 .获取 过 博客 主页 文章 的 所 有 标题 ， 这 里 重新 使 用 BeautifulSoup 获 取 。 获 取 的 代码 如 下 : 


import requests 
from bs4 import BeautifulSoup 


link = "http://www.santostang.com/" 
headers = ('User-Agent' : 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'} 
r — requests.get(link, headers- headers) 


soup = BeautifulSoup (上 .text 'lxml") 
first title = soup.find("hl", class -"post-title").a.text.strip() 
print (" 第 1 篇 文章 的 标题 是 ，"， first title) 


title list = soup.find all("hi", class ="post-title") 
for i in range(len(title list)): 
title = title list[i].a.text.strip() 
print ("3 $s 篇 文章 的 标题 是 : $s' S(it1, title 


— 


) 
运行 上 述 代码 ， 得 到 的 结果 是 : 

第 1 篇 文章 的 标题 是 : 4.3 通 过 selenium 模 拟 浏览 器 抓 取 

第 1 篇 文章 的 标题 是 : 4.3 通 过 selenium 模 拟 浏览 器 抓 取 

第 2 篇 文章 的 标题 是 : 4.2 解 析 真 实地 址 抓 取 

第 3 篇 文章 的 标题 是 : 第 四 章 -动态 网 页 抓 取 (解析 真实 地 址 +selenium) 

第 4 篇 文章 的 标题 是 : (ASI: 从 入 门 到 实践 》 一 书 勘误 

第 5 篇 文章 的 标题 是 : Hello world! 

首先 ， 我 们 需要 使 用 BeautifulSoup(r.text, lxml") 将 网 页 响应 体 的 字符 串 转化 为 soup 对 象 ， 然 后 就 可 以 使 用 soup 库 的 功能 了 。 


如 果 想 找到 html 代 码 中 的 <h1> 元 素 ，class 为 'post-title'， 可 以 用 soup.find("h1" class_= "post-title"))， 然 后 加 上 .a.text 提 取 <a> 元 素 中 的 文字 得 到 第 一 篇 文章 的 标题 ，strip() 的 功能 是 把 字符 串 左 右 的 
空格 去 掉 。find 只 是 用 来 找到 第 一 条 结果 ， 如 果 我 们 要 找到 所 有 结果 ， 就 需要 用 到 find all, find all 的 结果 是 一 个 列表 ， 从 中 提取 需要 的 标题 即 可 。 


5.23 ”BeautifulSoup 的 其 他 功能 


为 了 演示 BeautifulSoup 的 功能 ， 这 里 截取 博客 主页 的 一 段 代码 : 


html = nnw 
«body» 
«header id-"header"» 
«hl idq="name"> 唐 松 Santos</h1> 
«div class-"sns"» 


«a href="http://www.santostang.com/feed/" target="_blank" rel="nofollow" title="RSS"><i class="fa fa-rss" aria-hidden- "true"></i></a> 
«a href="http://weibo.com/santostang" target="_blank" rel= "nofollow" title="Weibo"><i class="fa fa-weibo" aria-hidden-"true"» «/i»«/a» 
«a href-"https://www.linkedin.com/in/santostang" target- " blank" rel="nofollow" title="Linkedin"><i class="fa fa-linkedin" aria-hidden="true"></i></a> 
«a href="mailto:tangsongsky@gmail.com" target-" blank" rel= "nofollow" title-"envelope"»«i class="fa fa-envelope" aria-hidden- "true"»«/i»«/i»«/a» 
</div> i 
«div class-"nav"» 
«ul» 


<li><a href-"http://www.santostang.com/"»H Ji«/a»«/li» 
<li><a href-"http://www.santostang.com/sample-page/"»X T 4X«/a»«/li» 
<li><a href-"http://www.santostang.com/ python$e72bd2$912e72bb29c2$e725882$ac$e82$999$ab$e42bb$a3$e7$a0$81/"»J(6 HB RAG</a></1i> 
<li><a href-"http://www.santostang.com/ %e5%8a%a0%e6%88%91 %e5%be%aese4sbf a1 "DR </eo</ Li 
<li><a href="https://santostang.github.io/">EnglishSite</a> </li> 
</ul> 

</div> 
</header> 


¢ ( ( ( ( 


首先 ， 需 要 把 代码 转化 成 BeautifulSoup 对 象 : 


soup = BeautifulSoup(html, "lxml") 


上 面 的 代码 看 起 来 比较 杂乱 ，soup 还 可 以 对 代码 进行 美化 : 


print (soup.prettify()) 
其 实 ，BeautifulSoup 对 象 是 一 个 复杂 的 树 形 结构 ， 它 的 每 一 个 节点 都 是 一 个 Python 对 象 ， 获取 网 页 内 容 就 是 一 个 提取 对 象 内 容 的 过 程 。 而 提取 对 象 的 方法 可 以 归纳 为 3 种 : 
(1) 遍历 文档 树 
(2) 搜索 文档 树 
(3) CSS 选 择 器 
1. 遍 历 文档 树 


首先 介绍 遍历 文档 树 的 方法 。 文 档 树 的 遍历 方法 就 好 像 他 树 一 样 ， 需 要 先 代 到 树干 上 ， 然 后 慢 慢 到 小 树干 ， 最 后 到 树 校 上 ， 就 可 以 得 到 需要 的 数据 了 。 例 如 ， 要 获取 <h1> 标 签 ， 只 需要 输入 : 


soup.header.h1 


得 到 结果 : <h1 id= "name"> 唐 松 Santos</h1> 


对 于 某 个 标签 的 所 有 子 节点 ， 我 们 可 以 用 contents 把 它 的 子 节点 以 列表 的 方式 输出 : 


soup.header.div.contents 

得 到 的 结果 是 

[\n', 

<a href="http://www.santostang.com/feed/"rel="nofollow"target="_blank"title="RSS"> «i aria-hidden="true"class="fa fa-rss" > </i> </a>， 
\n', 


«a href="http://weibo.com/santostang"rel="nofollow"target="_blank"title="Weibo"> «i aria-hidden="true"class="fa fa-weibo"> </i> </a>, 


我 们 可 以 看 到 ， 真 实 的 <a> 标 签 都 在 contents 列 表 的 奇数 项 中 ， 其 他 的 都 是 \n ， 所 以 可 以 输入 : 


soup.header.div.contents[1] 


得 到 第 一 个 <a> 标 签 : «a href="http://www.santostang.com/feed/"rel="nofollow"target="_blank"title="RSS"> «i aria-hidden="true"class="fa fa-rss"> «/i» </a>。 


我 们 也 可 以 使 用 children 方 法 获得 所 有 子 标签 : 


for child in soup.header.div.children: 
print (child) 


上 述 方 法 只 能 获取 该 节点 下 一 级 的 节点 ， 如 果 要 获得 所 有 子 子孙 孙 的 节点 ， 就 要 用 .descendants 方 法 。 其 代码 如 下 : 


for child in soup.header.div.descendants: 
print (child) 


除了 获取 子 节点 外 ， 还 可 以 使 用 .parent 方 法 获得 父 节点 的 内 容 : 


a tag = soup.header.div.a 
a tag.parent 


对 于 刚刚 的 <a> 节 点 ， 我 们 可 以 用 此 方法 获取 父 节点 。 得 到 的 结果 是 : 


<div class-z "sns" > 


«a href="http://www.santostang.com/feed/"rel="nofollow"target="_blank"title="RSS"> «i aria-hidden- "true" classz "fa fa-rss"> «/i» «/a» 


«a href="mailto:tangsongsky@gmail.com"rel="nofollow"target="_blank"title="envelope" > «i aria-hidden- "true" classz "fa fa-envelope" > </i> «/a» «/div» 


2. 搜 索 文 档 树 
遍历 文档 树 的 方法 其 实 使 用 得 比较 少 ， 最 常用 的 是 搜索 文档 树 。 在 搜索 文档 树 时 ， 最 常用 的 是 find0 和 find_all(0。 


对 于 find0 和 find_all0 的 使 用 ， 已 经 在 上 一 节 怜 取 博 客 主页 的 文章 标题 中 介绍 过 了 ， 这 里 就 不 再 重复 。 其 实 ，find0 和 find_all( 方 法 还 可 以 和 re 正则 结合 起 来 使 用 ， 例 如 : 


for tag in soup.find all (re.compile("*h")): 
print (tag.name) 


输出 的 结果 是 : 

html 

header 

h3 

上 面 的 例子 能 够 找 出 所 有 以 h 开 头 的 标签 ， 这 表示 <header> 和 <h3> 的 标签 都 会 被 找到 。 如 果 传 入 正则 表达 式 作 为 参数 ，Beautiful Soup 就 会 通过 正则 表达 式 的 match() 来 匹配 内 容 。 
3.CSS 选 择 器 

CSS 选 择 器 方法 既 可 以 作为 遍历 文档 树 的 方法 提取 数据 ， 也 可 以 作为 搜索 文档 树 的 方法 提取 数据 。 

首先 ， 可 以 通过 tag 标 签 逐 层 查找 ， 例 如 : 


soup.select ("header hl") 


得 到 的 结果 是 : [«h1 id="name"> 唐 松 Santos</h1>] 


也 可 以 通过 某 个 tag 标 签 下 的 直接 子 标签 遍历 ， 例 如 : 


print (soup.select("header > h3")) 
print (soup.select("div » a")) 


第 一 行 得 到 的 结果 和 前 面 一 样 ， 第 二 行 得 到 的 结果 是 <div> 下 所 有 的 <a> 标 签 ， 例 如 : 
[<h1 id="name"> 唐 松 Santos</h1>] 


[<a href="http://www.santostang.com/feed/"rel="nofollow"target="_blank"title="RSS"> «i aria-hidden="true"class="fa fa-rss"></i></a>,<a 


href="http://weibo.com/santostang"rel="nofollow"target="_blank"title="Weibo" > <i aria-hidden="true"class="fa fa-weibo"> </i></a>....] 
CSS 选 择 器 也 可 以 实现 搜索 文档 树 的 功能 。 


例如 ， 要 找 所 有 链接 以 http://www.santostang.com/ 开 始 的 <a> 标 签 ， 代 码 如 下 : 


CAm 


soup. select ('a[href^="http://www.santostang.com/"]') 


得 到 的 结果 是 : 

[<a href="http://www.santostang.com/feed/"rel="nofollow"target="_blank"title="RSS"> «i aria-hidden= "true"class= "fa fa-rss"> «/i» «/a», 
«a hrefz"http://www.santostang.com/" » Ba </a>, 

«a hrefz"http://www.santostang.com/sample-page/' » T 3x </a>, 


«a hrefz"http://www.santostang.com/python96e796bd969196e796bb/" > Br 334488 </a>] 


5.3 ”使 用 xml 解 析 网 页 


前 面 我 们 介绍 了 BeautifulSoup 的 用 法 ， 它 已 经 非常 强大 。 还 有 一 些 比较 流行 的 解析 库 使 用 的 是 Xpath 语 法 (如 Ixml) ， 同 样 是 效率 比较 高 的 解析 方法 。Ilxml 使 用 C 语 言 编写 ， 解 析 速 度 比 不 使 用 lxml 解 
析 器 的 BeautifulSoup 快 一 些 。 


5.3.1 |Ixm| 的 安装 


安装 |xml 非 常 简单 ， 使 用 pip 安 装 即 可 。 在 cmd 中 输入 : 


pip install lxml 


之 后 按 回 车 键 就 可 以 成 功 安装 了 。 


5.3.2 ”使 用 xml 获 取 博 客 标题 


使 用 xml 提 取 网 页 源 代码 数据 也 有 3 种 方法 ， 即 XPath 选择 器 、CSSs 选 择 器 (已 经 在 第 4 章 介绍 过 ) 和 BeautifulSoup 的 find() 方 法 。 和 BeautifulSsoup 相 比 ，Ixml 还 多 了 一 种 XPath 选择 器 方法 。 在 本 例 
中 ， 我 们 将 使 用 xml 中 的 XPath 选择 器 来 获取 标题 。 
XPath 是 一 门 在 XML 文档 中 查找 信息 的 语言 。XPath 使 用 路 径 表 达 式 来 选取 XML 文档 中 的 节点 或 节点 集 ， 也 可 以 用 在 HTML 获 取 数 据 中 。 


获取 博客 主页 所 有 文章 标题 的 代码 如 下 : 


import requests 
from lxml import etree 


link = "http://www.santostang.com/" 
headers = {'User-Agent' : 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'} 
r — requests.get(link, headers- headers) 


html = etree.HTML(r.text) 
title list = html.xpath('//hl[G8class-"post-title"]/a/text () ') 
print (title list) 


运行 上 述 代 码 ， 得 到 的 结果 是 
[4.3 通 过 selenium 模 拟 浏 览 器 抓 取 "4.2 解析 真实 地 址 抓 取 ” 第 四 章 - 动 态 网 页 抓 取 ( 解 析 真 实地 址 +selenium) 《网 络 礁 虫 : 从 入 门 到 实践 》 一 书 勘误 ,Hello world!’] 
和 BeautifulSoup 类 似 ， 使 用 xm 的 时 候 需要 先 用 html=etree.HTML(r.text) 解 析 为 xm 的 格式 ， 然 后 使 用 XPath 读 取 里 面 的 内 容 。 


其 中 ，"//h1" 代 表 选 取 所 有 <h1> 子 元 素 ，"//" 无 论 在 文档 中 什么 位 置 ， 后 面 如 上 [@ class- "post-title"] 表 示 选 取 <h1> 中 class 为 "post-title" 的 元 素 ，/a 表 示 选 取 <h1> 子 元 素 的 <a> 元 素 ，/text0 表 示 
提取 <a> 元 素 中 的 所 有 文本 。 


得 到 的 结果 和 之 前 BeautifulSoup 方 法 的 结果 相同 。 从 上 述 代 码 来 看 ，|xml 使 用 XPath 的 方法 比较 麻烦 ， 而 BeautifulSsoup 的 find_all 更 加 简单 一 些 。 
虽然 XPath 看 起 来 比较 麻烦 ,但 是 Chrome 的 “检查 ”功能 提供 了 很 好 查找 XPath 的 工具 。 下 面 介绍 查找 任意 一 个 元 素 XPath 的 方法 。 


步骤 01 使 用 Chrome 打 开 博 客 主页 http://www.santostang.com/ ， 右 击 页 面 任意 位 置 ， 在 弹出 的 快捷 菜单 中 单 击 “检查 ”命令 ， 显 示 如 图 5-1 所 示 的 页 面 。 
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civ#main — div.row box 
图 5-1 使 用 Chrome 打 开 检 查 页 面 


步骤 02 ” 单 击 页 面 左上 角 的 “和 鼠标 ”按钮 ， 在 网 页 中 单 击 要 提取 的 数据 ， 如 最 后 一 篇 文章 Hello World 的 标题 ， 可 以 看 到 在 代码 中 定位 到 了 该 文章 标题 的 位 置 ， 如 图 5-2 所 示 。 


Hello world! 


ES 03 921 | FSS + 20S SS =p 电 


KAGE@ == 9 SAS 'Velcome to WordPress. This is your first post. Edit or delete it, then start writing! 
Santos 


Add attribute 
Edit attribute 
= Edit as HTML 


Elements i ees MES Application Security Audits Adblock Plus 
— Copy Copy outerHTML 


«html lang-"zh-CN"» f Copy selector 
> #shadow-root (ope Hide element 
> <head>..</head> Copy XPath 
"V <body class=" cus 
> «header id-"hea 
w«div id-"main"» Expand all Copy element 
"v «div class-"ri 
: :before 
V<div class=" 
‘article earfix"».«/article 
«article :hover earfix"».«/article 
«article earfix"».«/article 
«article ‘focus earfix"».«/article 
article NOCT earfix ; >.< /farticle 
article earfix 
:: before : A 
" «header Scroll into view 
: :befo 
v «h1 cl Break on... > 
a | ang.com/2017/03/02/hello-world/ Hello world!-/a 


Delete element 
Cut element 


Collapse all Paste element 


:active 


图 5-2 ”定位 到 标题 的 位 置 
R03 右 击 该 元 素 ， 在 弹出 的 快捷 菜单 中 选择 Copy 一 Copy XPath， 这 样 这 个 元 素 的 XPath 就 可 以 复制 到 剪贴 板 ， 粘 贴 之 后 ， 得 到 该 XPath 为 //*[@id="main"]/div/div[1]/article[5]/header/h1/a。 


使 用 Chrome 的 “检查 ”方法 可 以 很 快 找到 一 个 元 素 的 XPath ， 配 合 lxml 使 用 ， 提 取 元 素 更 加 方便 快捷 。 


5.3.3 ”XPath 的 选取 方法 


XPath 使 用 路 径 表达 式 可 以 在 网 页 源 代码 中 选取 节点 ， 它 是 沿 着 路 径 来 选取 的 ， 如 表 5-3 所 示 。 
表 5-3 XPath 路 径 表 达 式 及 其 描述 
表达 式 Tí Xs 
nodename 选取 此 节点 的 所 有 子 节 点 
从 根 节 点 选取 
从 匹配 选择 的 当前 厄 点 选择 文档 中 的 节点 ， 而 不 考虑 它们 的 位 置 


Jat C iu E SLT SO ss 
选取 属性 


下 面 是 一 个 XML 文档 ， 我 们 将 用 XPath 提取 其 中 的 一 些 数据 。 


el 
| 选取 当前 节点 
S| 


<?xml version="1.0" encoding-"ISO-8859-1"?» 


<bookstore> 

<book> 
<title lang="en">Harry Potter</title> 
<author>J K. Rowling</author> 
<year>2005</year> 
<price>29.99</price> 

</book> 

</bookstore> 


表 5-4 列 出 了 XPath 的 一 些 路 径 表达 式 及 其 结果 


表 5-4 路 径 表达 式 及 其 结果 


路 径 表 达 式 结果 
/bookstore 选取 根 元 取 bookstore 
注释 : 假如 路 从 起 始 于 正 斜 杠 (/ )， 此 路 径 始 终 代 表 到 芥 元 素 的 绝对 路 径 


选取 所 有 book 子 元 素 ， 无 论 它们 在 文档 中 什么 位 置 
bookstore//book | 选择 属于 bookstore 元 素 后 代 的 所 有 book 元 素 ， 无 论 它 们 位 于 bookstore 下 
的 什么 位 置 


选取 名 为 lang 的 所 有 属性 


5.4 Rh 


45-5  HTML/ Jr 28 9) 5k s. 


HTML 解析 器 — 提取 数据 方式 


正则 表达 式 正则 表达 式 


C CE "M 


如 果 你 面 对 的 是 复杂 的 网 页 源 代码 ， 那 么 正则 表达 式 的 书写 可 能 会 花费 较 长 时 间 ， 这 时 选择 BeautifulSoup 和 Ixml 比 较 简 单 。 由 于 BeautifulSoup 已 经 支持 lxml 解 析 ， 因 此 速度 和 Ixml 差 不 多 ， 可 以 根据 
使 用 者 的 熟悉 程度 进行 选择 。 因 为 学 习 新 的 方法 也 需要 时 间 ， 所 以 熟悉 XPath 的 读者 可 以 选择 lxml。 假 如 你 是 初学 者 ， 需 要 快速 掌握 提取 网 页 中 的 数据 ， 推 荐 使 用 BeautifulSoup 的 find 方 法 。 


5.5 BeautifulSoup[[EFRscEE: 房屋 价格 数据 


本 章 的 实践 项 目 是 获取 安居 客 网 站 上 北京 二 手 房 的 数据 。 本 项 目 需要 获取 前 10 页 二 手 房 源 的 名 称 、 价 格 、 几 房 几 厅 、 大 小 、 建 造 年 份 、 联 系 人 、 地 址 、 标 签 。 网 页 地 址 
73: https://beijing.anjuke.com/sale/, 


5.5.1 ”网 站 分 析 


打开 安居 客 北京 二 手 房 的 网 页 ， 然 后 使 用 “检查 ”功能 查看 该 网 页 的 请 求 头 ， 如 图 5-3 所 示 。 
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图 5-3 ”安居 客 北 京 二 手 房 的 网 页 
首先 ， 我 们 需要 定位 网 页 各 个 元 素 所 在 的 地 址 。 利 用 第 4 章 章 末 实践 提 到 的 方法 可 以 定位 各 个 元 素 所 在 的 地 址 ， 得 到 如 表 5-6 所 示 的 表格 。 


R56 ”定位 到 各 个 元 素 所 在 的 地 址 


地 址 


房屋 名 称 
pp NN 
span, class= unit-price 
div, class= details-item > span 
div, class= details-item > contents[5] 


(BE ) 
地 址 


div, class= details-item > contents[7 ] 
5 hp : span, class- brokername 


地 址 span, class= comm-address 
span, class= item-tags 


5.5.2 项目 实践 
通过 以 上 分 析 已 经 能 够 获得 各 个 数据 所 在 的 地 址 ， 接 下 来 用 requests 加 上 BeautifulSoup 获 取 安 居 客 北京 二 手 房 结果 的 第 一 页 数据 ， 代 码 如 下 : 


import requests 
from bs4 import BeautifulSoup 


headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36'} 
link = 'https://beijing.anjuke.com/sale/' 
r = requests.get(link, headers = headers) 


soup = BeautifulSoup(r.text, 'lxml') 
house list = soup.find all('li', class -"list-item") 


for house in house list: 

name = house.find('div', class -'house-title').a.text.strip() 
price = house.find('span', class -'price-det').text.strip() 
price area - house.find('span', class -'unit-price').text.strip() 


no room = house.find('div', class -'details-item').span.text 
area = house.find('div', class -'details-item').contents[3]. text 
floor - house.find('div', class -'details-item').contents[5]. text 
year = house.find('div', class -'details-item').contents[7]. text 
broker = house.find('span', class -'brokername').text 
broker = broker[1:] m 


address - house. 


find('span', class -'comm-address') 


address = address.replace('\xa0\xa0\n 


tag list = house 


.find all('span', class -'item- 
tags — [i.text for i in tag list] 


print (name, price, 


.text. strip() 


PE Ty 


tags') 


price area, no room, area, floor, year, broker, address, tags) 


运行 上 述 代码 ， 得 到 的 结果 是 : 


整体 格局 紧凑 ， 无 浪费 面 和 


安福 苑 南 二 区 、 电 梯 房 大 一 居 、 刚 装修 完 还 ; 


一 套 很 不 一 般 的 两 居室 ， 


第 1 页 


只 ， 带 您 穿梭 各 楼 层 间 ， 方 便 快捷 1400 万 59322 元 /m24 室 2 厅 236m2 共 3 层 2012 年 建造 林 光 江 温哥华 森林 昌平 -昌平 - 立 汤 路 [ 挑 空 厅 ' ' 房 型 正 ,' 两 房 朝 南 '] 
SEIT AT! 180 万 24749 元 /m21 室 1 厅 73m2 中 层 ( 共 20 层 )2013 年 建造 马 彦 锋 宏 福 苑 南 二 区 昌平 - 北 七 家 - 定 泗 路 [' 环 境 优美 ,交通 便利 , 繁华 地 段 ':] 


室内 层 高 特别 ， 亮 堂 大 气 440 万 48351 元 /m“22 室 2 厅 91m“ 高 层 ( 共 8 层 )2013 年 建造 赵 淑 平 金融 街 金色 漫 香 苑 昌平 - 北 七 家 -天 权 路 2 号 [ 


共有 60 个 房 源 结果 ， 由 于 结果 太 长 ， 因 此 这 里 就 不 一 一 展示 了 。 在 获取 第 1 页 的 结果 后 ,我们 还 需要 获取 从 第 1 页 到 第 10 页 的 数据 。 其 实 ， 点 开 第 2 页 可 以 发 现 URL 地 址 的 变 成 


了 https://beijing.anjuke.com/sale/p2/。 点 开 第 3 页 ，URL 的 地 址 变 成 了 https://beijing.anjuke.com/sale/p3/。 


也 就 是 说 ， 翻 


impor 


impor 


t requests 
from bs4 import BeautifulSoup 


t time 


headers = ('User- Ag nt' : 


for i in range(1,11): 


link = 'https://beiji 
r = requests.get(link, headers - headers) 
print (CMER, i, 'W') 


soup = Beaut 
house list = soup.fi 


Lu. 


fulSoup 


"Mozilla/5.0 (Windows NT 6.1; 


ing.anjuke.com/sale/p' + str (i) 


(r.text, 'lxml') 


nd all('li', class -"list-item" 


for house in house list: 
d('div', class -'house-title'). 


name — house.fin 


price = house.fi 
price area = hou 


TGRSRS ESC EUR. ETERRA, RITARA, ERA RRE, fURBRET: 


WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/ 537.36'} 


) 


a.text. strip() 


nd('span', class -'price-det') 


no room — house. 
area = house.fin 


.text.strip() 


se.find('span', class -'unit-price').text. strip() 


d('div', class -'details-item') 


floor = house.fi 


nd('div', class -'details-item' 


year = house.fin 
broker - house. 


d('div', class -'details-item') 


find('div', class -'details-item').span. text 


.contents[3]. text 
). contents[5].text 
.contents[7]. text 


find('span', class -'brokername' 
broker = broker [1 


2] 


address = house. 
address = addres 


find('span', class ='comm-addre 
s.replace ('\xa0\xa0\n 


tags = [i.text 
print (name, pri 


tag list = house. 


find all('span', class -'item- 


for i in tag list] 


ce, price area, no room, area, 


time.sleep (5) 


).text 


ss') .text.strip () 
PS ey 
tags') 


floor, year, broker, address, tags) 


由 于 数据 格式 和 前 面 的 格式 相同 ， 因 此 这 里 就 不 展示 数据 的 结果 了 。 对 于 完整 的 代码 和 结果 感 兴趣 的 读者 ， 可 以 从 本 书 配套 资源 的 下 载 地 址 下 载 。 


5.5.3 ”自我 实践 题 


在 本 章 的 实践 中 仅 获 取 了 搜索 结果 的 房 源 数 据 ， 如 果 我 们 能 够 进入 每 个 房 源 的 页 面 ， 就 可 以 获取 更 多 数据 ， 如 图 5-4 所 示 。 
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图 5-4 ”获取 搜索 结果 的 房 源 数据 


读者 若 有 时 间 ， 可 以 尝试 进入 上 述 房 源 的 页 面 ， 获 取 其 中 的 各 项 数据 ， 如 小 区 名 称 、 房 屋 类 型 、 房 屋 朝 向 、 参 考 首付 等 。 


第 6 草 ”数据 存储 


本 章 主 要 介绍 将 数据 存储 在 文件 中 和 存储 在 数据 库 中 。 当 我 们 完成 爬 取 网 页 并 从 网 页 中 提取 出 数据 后 ， 需 要 把 数据 保存 下 来 。 本 章 将 介绍 两 种 保存 数据 的 方法 : 
(1) 存储 在 文件 中 ， 包 括 TXT 文 件 和 CSV 文 件 。 


(2) 存储 在 数据 库 中 ， 包 括 MySQL 关 系数 据 库 和 MongoDB 数 据 库 。 


6.51 基本 存储 : 存储 至 TXT 或 CSV 


6.1.1 把 数据 仓储 全 TXT 


把 数据 存储 至 TXT 文 件 的 方法 非常 简单 。 在 前 面 几 章 ， 特 别 是 在 第 2 章 的 “编写 你 的 第 一 个 乳 虫 ”中 应 该 已 经 试 过 把 数据 存储 至 TXT 了 。 存 储 时 仅 需 要 几 行 代码 (记得 把 下 面 地 
址 “C:\\you\\desktop” 蔡 换 成 你 自己 的 桌面 地 址 ) : 


title = "This is a test sentence." 

with open('C:\\you\\desktop\\title.txt', "at") as f: 
f.write (title) 

f.close() 


Hh, with open(C:\\you\desktop\\title.txt',"a+")as 下 的 a+ 为 Python 文 件 的 读 写 模式 ， 表 示 将 对 文件 使 用 附加 读 写 方 式 打 开 ， 如 果 该 文件 不 存在 ， 就 会 创建 一 个 新 文件 。 除 了 a+ 以 外 ， 还 有 其 他 
几 种 打开 文件 的 方式 ， 如 表 6-1 所 示 。 


表 6-1 几 种 打开 文件 的 方式 


可 否 读 写 若 文件 不 存在 = 


E rE 


根据 不 同 的 需要 ， 我 们 可 以 采用 不 同 的 方式 打开 文件 。 一 般 在 读 取 文 件 的 时 候 可 以 使 用 方式， 如 果 文 件 不 存 企 ， 就 会 返回 错误 ， 而 且 无 法 向 该 文件 中 写 入 数据 ， 这 样 就 保证 了 读 取 文 件 的 可 靠 性 。 在 写 
入 文件 的 时 候 ， 我 们 可 以 选择 a+ ， 数 据 会 在 文件 最 后 添加 进去 ， 不 会 影响 原 有 的 数据 ， 如 果 该 文件 不 存在 ， 就 会 创建 一 个 新 的 文件 。 


上 面 的 代码 为 什么 要 用 两 个 反 斜 枉 “\\” 呢 ”第 5 章 介绍 正则 表达 式 时 有 过 说 明 ， 第 一 个 反 斜 杠 在 编程 语言 中 会 被 当 作 转 义 字符 ， 如 An" RERIT, AE “\” 其 实 代 表 的 是 一 个 反 斜 本 。 如 果 使 用 
r"， 文 件 地 址 也 可 以 表示 为 : 


with open (r'C:\you\desktop\title.txt', "a+") as f: 


[会 把 里 面 的 内 容 当 作 纯 粹 的 字符 串 (raw string) 处 理 。 为 了 防止 对 反 和 斜 杠 的 转 义 ， 地 址 还 可 以 斜 杠 “/” 来 写 ， 也 就 是 with open('C:/you/desktop/title.txt',"a+")as f:, 
综 上 所 述 ， 地 址 可 以 写成 如 下 3 种 形式 : 

(1) with open('C:\\you\\desktop\\title.txt’,"a+")as f: 

(2) with open(r'C:\you\desktop\title.txt',"a+")as f: 

(3) with open('C:/you/desktop/title.txt',"a- "as f: 


有 时 需要 把 几 个 变量 写 入 TXT 文件 中 ， 这 时 分 隔 符 就 比较 重要 了 。 可 以 采用 Tab 进 行 分 隔 ， 因 为 在 字符 串 中 一 般 不 会 出 现 Tab 符 号 。 用 \t join( 将 变量 连接 成 一 个 字符 串 的 代码 如 下 : 


output = 'Nt'.join(['name','title','age', 'gender']) 
with open('C:\\you\\desktop\\test.txt', "at") as f: 
f.write (output) 

f.close() 


得 到 的 结果 如 图 6-1 所 示 。 


test.txt - id 
文件 [Fi SE) WRO Bi 


nameM title age 


有 时 还 需要 读 取 TXT 文 件 中 的 数据 ， 和 写 入 数据 的 方式 非常 类 似 ， 把 write 改 成 read 即 可 ， 代 码 如 下 : 


with open('C:\\you\\desktop\\title.txt', "r") as f: 
result = f.read() 
print (result) 


得 到 的 结果 是 : This is a test sentence, 


如 果 往 tlte txt 文 件 添加 两 行文 字 ， 如 图 6-2 所 示 ， 那 么 怎么 分 开 读 三 行 呢 ? 


T| title.txt - 记事 本 
XHP SE 格式 (DO) EEV) 帮助 ( 


his ls a test sentence. 
his 1s the second test sentence. 
his is the third test sentence. 


图 6-2 ”加 入 两 行 


其 实 很 简单 ， 在 上 面 代 码 中 的 f.read0 加 入 .splitlines0 就 好 了 ， 代 码 如 下 : 


with open(r' C:\\you\\desktop\\title.txt', "r") as f: 
result = f.read().splitlines() 
print (result) 


结果 是 : [This is a test sentence.','This is the second test sentence.','This is the third test sentence.'] 


6.1 基本 存储 : 仓储 至 TXT 或 CSV 


6.1.1 ”把 数据 仓储 全 TXT 


把 数据 存储 至 TXT 文件 的 方法 非常 简单 。 在 前 面 几 章 ， 特 别 是 在 第 2 章 的 “编写 你 的 第 一 个 聆 虫 ” 中 应 该 已 经 试 过 把 数据 人 存储 至 TXT 了 。 人 存储 时 仪 需要 几 行 代码 (记得 把 下 面 地 
址 “C:\\you\\desktop” 蔡 换 成 你 自己 的 桌面 地 址 ) : 


title = "This is a test sentence." 

with open('C:\\you\\desktop\\title.txt', "a+") as f: 
f.write (title) 

f.close() 


Hh, with open(C:\\you\desktop\\title.txt',"a+")as 下 的 a+ 为 Python 文 件 的 读 写 模式 ， 表 示 将 对 文件 使 用 附加 读 写 方 式 打 开 ， 如 果 该 文件 不 存在 ， 就 会 创建 一 个 新 文件 。 除 了 a+ 以 外 ， 还 有 其 他 
几 种 打开 文件 的 方式 ， 如 表 6-1 所 示 。 
RO-1 几 种 打开 文件 的 方式 


i MERGE 


BAAN 
rm 


Edit A 
WIEEPN 


oS | SE Ris 
= | 写 | Bik 
Arr] | 4r] | rr] 
> 


根据 不 同 的 需要 ， 我 们 可 以 采用 不 同 的 方式 打开 文件 。 一 般 在 读 取 文 件 的 时 候 可 以 使 用 方式， 如 果 文 件 不 人 存在， 就 会 返回 错误 ， 而 且 无 法 向 该 文件 中 写 入 数据 ， 这 样 就 保证 了 读 取 文 件 的 可 靠 性 。 在 写 
入 文件 的 时 候 ， 我 们 可 以 选择 a+ ， 数 据 会 在 文件 最 后 添加 进去 ， 不 会 影响 原 有 的 数据 ， 如 果 该 文件 不 存在 ， 就 会 创建 一 个 新 的 文件 。 

上 面 的 代码 为 什么 要 用 两 个 反 斜 枉 “\\” 呢 ”第 5 章 介绍 正则 表达 式 时 有 过 说 明 ， 第 一 个 反 斜 杠 在 编程 语言 中 会 被 当 作 转 义 字符 ， 如 Nn" RERIT, AE ^\” 其 实 代表 的 是 一 个 反 斜 杠 。 如 果 使 用 
r"， 文 件 地 址 也 可 以 表示 为 : 


with open (r'C:\you\desktop\title.txt', "at") as f: 
[会 把 里 面 的 内 容 当 作 纯 粹 的 字符 串 (raw string) 处 理 。 为 了 防止 对 反 和 斜 杠 的 转 义 ， 地 址 还 可 以 斜 枉 “/” 来 写 ， 也 就 是 with open( C:/you/desktop/title.txt',"a- ")as f:, 
综 上 所 述 ， 地 址 可 以 写成 如 下 3 种 形式 : 

(1) with open(CNyyouWdesktopNtitle.txt',"a- "Jas f: 

(2) with open(r'C:\you\desktop\title.txt',"a+")as f: 


(3) with open('C:/you/desktop/title.txt',"a-- ")as f: 


有 时 需要 把 几 个 变量 写 入 TXT 文件 中 ， 这 时 分 隔 符 就 比较 重要 了 。 可 以 采用 Tab 进 行 分 隔 ， 因 为 在 字符 串 中 一 般 不 会 出 现 Tab 符 号 。 用 \t join() 将 变量 连接 成 一 个 字符 串 的 代码 如 下 : 


output = 'Nt'.join(['name','title','age', 'gender']) 
with open('C:\\you\\desktop\\test.txt', "at") as f: 
f.write (output) 

f.close() 


得 到 的 结果 如 图 6-1 所 示 。 
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有 时 还 需要 读 取 TXT 文 件 中 的 数据 ， 和 写 入 数据 的 方式 非常 类 似 ， 把 write 改 成 read 即 可 ， 代 码 如 下 : 


with open('C:\\you\\desktop\\title.txt', "r") as f: 
result = f.read() 
print (result) 


得 到 的 结果 是 : This is a test sentence, 


如 果 往 tlte.txt 文 件 添加 两 行文 字 ， 如 图 6-2 所 示 ， 那 么 怎么 分 开 读 三 行 呢 ? 


格式 (O) Be(V) 帮助 (H) 


[his is a test sentence. 
[his 15 the second test sentence. 
[his 1s the third test sentence. 


图 6-2 ”加 入 两 行 


其 实 很 简单 ， 在 上 面 代 码 中 的 fread(0 加 入 .splitlines(0) 就 好 了 ， 代 码 如 下 : 


with open(r' C:\\you\\desktop\\title.txt', "r") as f: 
result = f.read().splitlines() 
print (result) 


结果 是 : [This is a test sentence.','This is the second test sentence.','This is the third test sentence.'] 


6.1.2 ”把 数据 仔 储 全 CSV 


CSV (Comma-Separated Values) 是 喜 号 分 隔 值 的 文件 格式 ， 其 文件 以 纯 文 本 的 形式 存储 表格 数据 (数字 和 文本 ) 。CSV 文 件 的 每 一 行 都 用 换行 符 分 隔 ， 列 与 列 之 间 用 逗号 分 隔 。 


相对 于 TXT 文件 ，CSV 文 件 既 可 以 用 记事 本 打开 ， 又 可 以 用 Excel 打 开 ， 表 现 为 表格 形式 。 由 于 数据 用 有 逗号 已 经 分 隔 开 来 ， 因 此 可 以 十 分 整齐 地 看 到 数据 的 情况 ， 而 TXT 文件 经 常 遇 到 变量 分 隔 的 问题 。 
此 外 ，CSV 文 件 人 存储 同样 的 数据 占 的 大 小 也 和 TXT 文件 差不多 ， 所 以 在 Python 网 络 聆 虫 中 经 常用 来 存储 数据 。 


CSV 的 使 用 分 为 读 取 和 写 入 两 方面 ， 首 先 介绍 CSV 的 读 取 。 


如 图 6-3 所 示 ， 我 们 可 以 使 用 Excel 创 建 一 个 文件 ， 里 面 的 表格 是 4x4 的 ， 之 后 另存 为 CSV， 文 件 名 为 test.csv， 并 放 在 Jupyter 文 件 夹 中 。 
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图 6-3 Excel 保存 的 testcsv 


下 面 尝 试 使 用 Python 读 取 test.csv 中 的 数据 。 


import csv 

with open('test.csv', 'r', encoding-'UTF-8') as csvfile: 
csv reader = csv.reader (csvfile) 

for row in csv reader: 
print(row) 
print (row[0]) 


得 到 的 结果 是 

['A1','B1','C1','D1] 

A1 

['A2','B2','C2','D2'] 

A2 

['A3','B3','C3','D3'] 

A3 

['A4','B4','C4','D4'] 

A4 

可 见 csv_reader 把 每 一 行 数据 转化 成 了 一 个 列表 (list) ， 列 表 中 从 左 至 右 的 每 个 元 素 是 一 个 字符 串 。 


接 下 来 介绍 把 数据 写 入 CSV 的 方法 ， 我 们 可 以 将 变量 加 入 到 一 个 列表 中 ， 然 后 使 用 writerow() 方 法 把 一 个 列表 直接 写 入 一 列 中 ， 代 码 如 下 : 


import csv 

output JL = DUE" ZN er nt] 

with open('test2.csv', 'at', encoding-'UTF-8', newline-'') as csvfile: 
w = csv.writer (csvfile) 
w.writerow (output list) 


用 Excel 打 开 结 果 test2.csv， 如 图 6-4 所 示 。 


图 6-4 ”显示 test2.csv 的 结果 


6.2 存储 至 MySQL 数 据 库 


MySQL 是 一 种 关系 数据 库 管理 系统 ， 所 使 用 的 是 SQL 语言 ， 是 访问 数据 库 常 用 的 标准 化 语言 。 关 系数 据 库 将 数据 保存 在 不 同 的 表 中 ， 而 不 是 将 所 有 数据 放 在 一 个 大 仓库 内 ， 这 样 就 增加 了 写 入 和 提取 的 
速度 ， 数 据 的 人 存储 也 比较 灵活 。 


什么 是 天 系 型 数据 库 呢 ?就 是 建立 在 关系 模型 基础 上 的 数据 库 。 例 如 ， 人 存储 A 先 生 的 个 人 信息 (性 别 、 年 龄 等 ) 和 购买 记录 ， 我 们 可 以 把 所 有 的 信息 放 在 一 个 大 表 中 ， 如 果 采 取 这 样 的 方法 ， 要 增加 或 
减少 一 个 变量 就 要 变动 大 部 分 数据 ， 显 得 十 分 腔 肿 。 关 系 型 数据 库 就 解决 了 这 个 问题 ， 它 把 个 人 信息 放 在 “用 户 ” 表 中 ， 购 买 记录 放 在 “购买 记录 ” 表 中 ， 用 人 A 先生 的 用 户 id 作 为 主 关 键 字 (primary key) 
把 两 个 表 关联 起 来 。 


由 于 MySQL 关 系数 据 库 体积 小 、 速 度 快 而 县 免费， 因此 在 网 络 息 虫 的 数据 存储 中 作为 常用 的 数据 库 。 


6.2.1 ”下载 安装 MySQL 


MySQL 是 跨 平台 的 ， 我 们 可 以 选择 对 应 的 操作 系统 下 载 相 应 版 本 。 下 面 将 说 明 怎 么 在 Windows 操 作 系统 上 安装 MySQL。 


步骤 01 ”下载 MySQL。 进 入 MySQL 官方 网 站 下 载 页 面 (https:/ /dev.mysql.com/downloads/windows/installer/) 下 载 Windows 版 本 。 选 择 msi 格 式 下 载 ， 下 载 文件 为 mysql-installefr-community-8.0.13.0.msi， 如 


图 6-5 所 示 。 


Generally Available (GA) Releases 


MySQL Installer 8.0.13 


Select Operating System: Looking for previous GA 


- - versions 
Microsoft Windows 


Windows (x86, 32-bit), MSI Installer 1.0. 1 5.3M Download 


mysgl-installer-eb-comrnunity-8.0.13.0.msi) MDS: 37 Dabifiddiü5bTc4c83cG22[5e71b45 | Signature 


Windows (x86, 32-bit), MSI Installer 8.0. 313.8M Download 


mysql-insraller-community-8.D. 13.0.msi) MDS: 41f352302204323990507233118527032cc | Signature 


We suggest that you use the MDS checksums and GnuPG signatures to verify the integrity of the packages you download. 
5E Y 5 F 5 G J 


图 6-5 ”下 载 MySQL 


步骤 02 选择 MySQL 安 装 模 块 。 双 击 下 载 的 mysql-installetr-community-8.0.13.0.msi 文 件 安装 ， 有 几 种 可 以 选择 的 安装 模式 ， 选 择 customer 自 定义 模式 安装 。 自 定义 模式 可 以 选择 需要 安装 的 模块 ， 如 图 6-6 
所 示 是 笔者 选择 安装 的 模块 ， 其 中 MySQL Setrvet 为 MySQL 的 核心 模块 ， 是 必须 安装 的 ; MySQL Wotrkbench 是 MySQL 的 图 形 化 操作 界面 ， 习 惯 界面 化 操作 的 可 以 使 用 Wotkbench。 


Available Products: Products/Features To Be Installed: 


D- MySQL Servers J- MySQL Server 8.0.13 - X64 


H- Applications J- MySQL Workbench 8.0.13 - X64 


由 - MySQL Connectors : - MySQL Documentation 8.0.13 - X86 
H- Samples and Examples 8.0.13 - X86 
MySQL Shell 8.0.13 - X64 


+- Documentation 


图 6-6 ”选择 安装 模板 


选择 完 要 安装 的 模块 后 单 击 Next。 然 后 单 击 Execute， 开 始 安 装 选 好 的 MySQL 模 块 ， 如 图 6-7 所 示 。 


[©] MySQL Installer 


MySQL. Installer Installation 


Adding Community 
The following products will be installed. 


Product Status Progress Notes 
MySQL Server 8.0.13 Ready to Install 
MySQL Workbench 8.0.13 Ready to Install 
MySQL Shell 8.0.13 Ready to Install 
MySQL Documentation 8.0.13 Ready to Install 
deese Samples and Examples 8.0.13 Ready to Install 


Click [Execute] to install the following packages. 


Beek) [Beate] [Eevee] 


- 


6-7 ”安装 MySQL 模 块 
步骤 03 配置 MySQL Servet 模 块 。 在 第 一 个 页 面 对 Group Replication 进 行 配置 ， 选 择 Standalone MySQL Server/Classic MySQL Replication， 如 图 6-8 所 示 。 在 一 个 页 面 Product Configuration*] MySQL Server 进 行 


配置 ， 如 图 6-9 所 示 。 


MySQL Installer 


MySQL. Installer Group Replication 
MySQL Server 8.0.13 Tn 
Standalone MySQL Server / Classic MySOL Replication 


Choose this option if you want to run the MySQL Server either standalone with the opportunity 
ta later configure classic MySQL Replication. 


E OW Re alic tio u 
EL Using this option you can manually configure your replication setup and provide your own high 


availability solution if required. 


() Sandbox InnoDB Cluster Setup (for testing only) 


The InnoDB cluster technology provides an out-of-the-box HA (high availability) solution for 
MySQL using Group Replication technology. 


This option allows you to test an InnoDB cluster setup on your local computer using several 
MySQL Server sandbox instances. Read more about this here. 


To setup a real-world production InnoDB cluster please choose the standard MySQL Server 
configuration instead on all desired hosts and use the MySQL Shell afterwards to create or 
expand the InnoDB cluster setup. 


ED Pal v 
EIUS — st Router — . J 


‘InnoDB Cluster 


ie 


图 6-8 配置 Group Replication 


[E] MySQL Installer 


rows 
[| 


b. . 
MySQL. Installer Type and Networking 
MySQL Server 8.0.13 


Server Configuration Type 


Choose the correct server configuration type for this MySQL Server installation. This setting will 
define how much system resources are assigned to the MySQL Server instance. 


Config Type: 


Type and Metworking Connectivity 
Use the following controls to select how you would like to connect to this server. 
[7] TCP/IP Port 3306 | X Protocol Port: (33060 | 
Open Windows Firewall ports for network access 
[ ] Named Pipe Pipe Name: MYSQL 


[ ] Shared Memory Memory Name: MYSQL 


Advanced Configuration 


Select the check box below to get additional configuration pages where you can set advanced 
and logging options for this server instance. 


[ ] Show Advanced and Logging Options 


图 6-9 Bo € MySQL Server 2 
: Developer Machine (开发 机 器 ) : 该 选项 代表 典型 个 人 用 桌面 工作 站 。 假 定 机 器 上 运行 着 多 个 桌面 应 用 程序 ， 将 MySQL 服 务 器 配置 成 使 用 最 少 的 系统 资源 。 
` Server Machine (服务 器 ) : 该 选项 代表 服务 器 ，MySQL 服 务 器 可 以 同 其 他 应 用 程序 一 起 运行 ， 如 FIP、EB-Mail 和 Web 服 务 器 。MySQL 服 务 器 可 以 配置 成 使 用 适当 比例 的 系统 资源 。 
- Dedicated MySQL Server Machine (专用 MySQL 服 务 器 ) : 该 选项 代表 只 运行 MySQL 服 务 的 服务 器 。 假 定 没 有 运行 其 他 应 用 程序 ，MySQL 服 务 器 就 可 以 配置 成 使 用 所 有 可 用 系统 资源 。 
因为 此 对 话 框 仅 使 用 MySQL 开 发 ， 所 以 使 用 Developer Machine 已 经 足够 了 ， 这 样 占用 系统 的 资源 不 会 很 多 ， 然 后 单 击 Next 按 钮 。 


步骤 04 在 弹出 的 对 话 框 中 定义 toot 用 户 的 密码 ， 在 MySQL Root Password (输入 新 密码 ) 和 Repeat Password (确认 ) 两 个 编辑 框 内 输入 期 望 的 密码 ， 如 图 6-10 所 示 。 请 务必 记 住 此 时 输入 的 密码 ， 接 下 来 
会 用 到 。 如 果 想 添加 新 用 户 ， 那 么 可 以 单 击 Add Uset 按 钮 添加 。 


MySQL Installer 


P 
UN 


MySQL. Installer Accounts and Roles 


| Rema 了 
MySQL Server 8.0.13 Root Account Password 
Enter the password forthe root account. Please remember to store this password in a secure 


place. 


MsAlRootpacowort [ee NNI 
Repeat Password: oo 


Password strength: Weak 
MySQL User Details 


Please specify the user name, passward, and database role. 


YN T User Name: |E 
=e | Host: ocalhos users and applications. Assign a role to the user that 


Role User Role 


Authentication: alhost DB Admin 


Password: 


Confirm Password: 


图 6-10 ”设置 用 户 的 密码 


步骤 05 继续 单 击 Next 按 钮 ， 直 到 完成 ， 如 图 6-11 所 示 。 


MySQL Installer 
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MySQL. Installer Apply Configuration 
MySQL Server 80.13 The configuration operation has finished. 
Confiquration Steps Log 


Writing confiquration file 
Updating Windows Firewall rules 
Adjusting Windows service 
Initializing Database 

Starting Server 

Applying security settings 
Creating user accounts 


Apply Configuration 
nk 7 Updating Start Menu Link 


The configuration for MySQL Server 8.0.13 was successful. 
Click Finish to continue, 
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图 6-11 


» 
5 
e 


步骤 05 在 连接 Servet 页 面 输入 之 前 添加 的 用 户 和 密码 ， 如 图 6-12 所 示 。 


[5] MySQL Installer 


MySQL. Installer 


Connect To Server 
Samples and Examples 


Here are the compatible MySQL Srver instances installed in this computer. 


Please select the ones where the sample schemas and data will be created. 
Connect To Server 


C] Show MySQL Server instances maybe running in read-only mode 


Server Port Arch... Type 


Status 
EA] MySQL Server 8.0.13 3306 X64 


Stand-alone Server |[@Bhineetion succeeded) 


Now give us the credentials we should use (needs to have root privileges). 
Click "Check" to make sure they work. 


T= Credentials provided in Server configuration 
S^ All connections succeeded. 


| Next > Cancel 


图 6-12 ”连接 Setvet 


步骤 05 完成 整个 安装 ， 点 击 Finish 会 弹出 MySQL workbench 和 MySQLShell 如 图 6-13 所 示 。 


| MySQL Installer 一 X 


MySQL. Installer Installation Complete 
Adding Community 


The installation procedure has been completed. 


Start MySQL Workbench after Setup 
Start MySQL Shell after Setup 


Installation Complete 


Finish 


图 6-13 ”完成 安装 


安装 完 MySQL 后 ， 就 可 以 测试 MySQL 的 运行 了 。 如 果 熟 悉 使 用 命令 行 操 作 ， 就 可 以 进入 “开始 ”菜单 ， 单 击 “ 所 有 程序 ”， 找 到 MySQL 文 件 夹 ， 打 开 MySQL 8.0 Command Line Client-Unicode, 
图 6-14 所 示 融 是 MySQL server 的 操作 界面 ， 输 入 保存 的 root 密 码 ， 再 按 回 车 键 。 


D MySQL 5.7 Command Line Client - Unicode 


Enter password: **** 

Welcome to the MySQL monitor. Commands end with ; or g. 
Bour MySQL connection id is 10 

Server version: 5./.1/-log MySOL Community Server (GPL) 


Copyright (c) 2000, 2016, Oracle and/or its affiliates. All rights reserved. 
oracle is a registered trademark of Oracle Corporation and/or its 
affiliates. Other names may be trademarks of their respective 

OWnerS . 


Type 'help;' or 'xXh' for help. Type 'Xc' to clear the current input statement. 


mysql> show databases 


information schema 
mysq | 

performance schema 
saki la 

sys 


world 


图 6-14 MySQL Server 的 操作 界面 
输入 show databases;， 记 得 后 面 一 定 要 加 上 分 号 ， 然 后 按 回 车 键 ， 可 以 查看 现在 MySQL 服 务 器 中 所 有 的 数据 库 。 
如 果 不 熟 悉 命令 行 ， 那 么 可 以 用 MySQL Workbench 使 用 图 形 化 界面 来 操作 数据 库 。 如 图 6-15 所 示 ， 输 入 root 的 密码 ， 然 后 进入 MySQL Workbench 的 操作 界面 。 在 这 个 界面 中 ， 你 既 可 以 像 在 命令 行 


AT 
中 一 样 输入 命令 来 操作 数据 库 ， 也 可 以 通过 单 击 各 种 选项 进行 操作 。 
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os T Service: Mysgipiocalhost: 3306 Workbench Blogs 
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‘workbench Password: [iia 
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图 6-15 ”输入 toot 的 密码 


这 里 我 们 输入 show databases;， 然 后 按 Ctrl+ Enter 组 合 键 得 到 和 命令 行 操作 一 样 的 结果 ， 如 图 6-16 所 示 。 


actor 


| 47 iy 2 , I Ev Limtto 1000rows — * 


4 "n | 


| Result Grid | ||] Filter Rows: Export: JH] Wrap 
| Database 
|» information schema 
mysql 
performance schema 
sakila 


SYS 


world 


Result 1 x y 


图 6-16 ”操作 界面 


1. 创 建 数据 库 


如 果 需 要 创建 一 个 网 络 息 虫 的 数据 库 ， 可 以 在 命令 行 中 输入 : 


CREATE DATABASE scraping; 


如 果 需 要 使 用 其 中 一 个 数据 库 ， 创 建 之 后 ， 后 面 所 有 的 命令 都 会 运行 在 这 个 scraping 数 据 库 中 ， 除 非 切 换 到 另 一 个 数据 库 。 


USE scraping; 


2. 创 建 数 据 表 


这 个 数据 库 暂 时 什么 都 没有 ， 我 们 需要 在 这 个 scraping 数 据 库 里 创建 一 个 表格 : 


CREATE TABLE urls; 


结果 显示 错误 : ERROR 1113 (42000) : A table must have at least 1 column 


这 是 因为 创建 数据 表 必 须 指明 每 一 列 数 据 的 名 称 (column name) 和 类 别 (column_type)， 正 确 创建 数据 表 的 方法 是 : 


CREATE TABLE urls( 

id INT NOT NULL AUTO INCREMENT, 
url VARCHAR(1000) NOT NULL, 
content VARCHAR(4000) NOT NULL, 
created time TIMESTAMP DEFAULT CURRENT TIMESTAMP, 


在 上 述 数据 表 中 ， 我 们 创建 了 4 个 数据 变量 ， 分 别 是 id、url、content、created time。 其 中 ，id 的 类 别 是 整数 (INT) ， 属 性 为 自己 增加 (AUTO INCREMENT) ， 一 般 作为 主键 (PRIMARY 
KEY) ， 新 添加 数据 的 数值 会 自动 加 1。PRIMARY KEY 的 天 键 字 用 于 将 id 定义 为 主键 。 


其 他 url 和 content 的 类 别 是 可 变 长 度 的 字符 串 VARCHAR， 括 号 里 的 数字 代表 长 度 的 最 大 值 ，NOT NULL 表 示 url 和 content 不 能 为 空 。created time 为 该 数据 添加 的 时 间 ， 不 需要 设置 ， 它 会 自动 根据 
当时 的 时 间 填 入 。 


创建 数据 表 后 ， 我 们 可 以 查看 数据 表 的 结构 : 


DESCRIBE urls; 


结果 如 图 6-17 所 示 。 


1nt(11) 


varchar!l000, 
content varchar (4000) 
created time timestamp 


图 6-17 查看 数据 表 的 结构 


上 面 新 创建 的 表格 还 是 一 个 空 表 ， 我 们 可 以 插入 一 些 数据 : 


NSERT INTO urls (url, content) VALUES ("www.baidu.com", "这 是 内 容 "); 


虽然 这 里 只 插入 了 url 和 content 两 个 属性 ， 但 是 因为 id 是 自动 递增 的 ，created time 是 数据 加 入 的 时 间 戳 ， 所 以 这 两 个 变量 一 般 不 用 手动 定义 ， 它 们 会 自动 填 入 。 


从 上 述 urls 数 据 表 中 将 id 等 于 1 的 数据 行 提 取出 来 : 


CD 
en 


ELECT * FROM urls WHERE id-1; 


这 一 段 命令 的 意思 是 “从 表 urls 中 把 id 等 于 1 的 整 行 数据 取出 来 ”。 值 得 注意 的 是 ， 星 号 CO 代表 所 有 字段 。 输 出 的 结果 如 图 6-18 所 示 。 


SELECT * FROM urls WHERE 


Wn. 这 是 内 容 | 2018-11-25 22:3 


| row in 


图 6-18 ”从 数据 表 中 提取 数据 


如 果 我 们 只 想 看 部 分 字段 ， 也 就 是 url 和 content， 只 用 select 选 择 url、content 即 可 。 在 MySQL 的 命令 行 输入 : 


SELECT url,content FROM urls WHERE id-1; 


输出 的 结果 如 图 6-19 所 示 。 


mysql> SELECT url,content FROM urls WHERE i1d-1; 


4 
1 row in set (0.01 sec) 
图 6-19 ”查看 部 分 字段 


除了 将 条 件 定义 为 “等 于 ”， 还 可 以 用 包含 部 分 内 容 的 方法 ， 例 如 下 面 的 例子 : 


ELECT id,url FROM urls WHERE content LIKE “SWR”; 


LO 
Hi 


把 字段 ld 和 ur 的 数据 显示 出 来 ， 提 取 的 是 content 字 段 中 包含 This 所 有 行 的 字段 的 id 和 url 数 据 ，% 在 MySQL 中 表示 字符 串通 配 答 。 输 出 的 结果 如 图 6-20 所 示 。 


[xf 
HEB 
*H 
Mb 


I" 0/ 


SELECT id,ur! FROM urls WHERE content LIKE “4% 


row in set (0.00 sec) 


图 6-20 ”使 用 通配符 


删除 url 是 的 数据 : 


DELETE FROM urls WHERE url='www.baidu.com'; 


得 到 的 结果 是 : Query OK,1 row affected(0.05 sec) 


值得 注意 的 是 ， 如 果 没 有 指定 WHERE 子 句 ， 上 述 命令 就 变 成 了 DELETE FROM urls。 这 样 结果 会 非常 严重 ， 导 致 MySQL 表 中 的 所 有 记录 被 删除 。 有 很 多 人 不 小 心 犯 过 这 样 的 错误 ， 所 以 一 定 要 记得 加 
入 WHERE， 不 然 就 会 误 删 除 整 张 表 。 


— Z 一 米 


由 于 刚刚 删除 了 一 行 数据 ， 因 此 现在 数据 表格 又 变 成 空 的 了 。 下 面 再 插入 一 行 数据 。 由 于 id 和 created_ time 是 数据 库 自 行 填 入 的 ， 因 此 这 一 行 数据 的 id 为 2。 


NSERT INTO urls (url, content) VALUES ("www.santostang.com", "Santos blog"); 


如 果 想 修改 这 一 行 数据 ， 将 id 等 于 2 的 urlI 改 成 ，Content 改 成 Google， 那 么 可 以 用 : 


UPDATE urls SET url="www.google.com", content-"Google" WHERE id = 2; 


得 到 的 结果 如 图 6-21 所 示 ， 表 示 已 经 成 功 修改 了 。 


mysql> UPDATE urls SET url-"www.google.com", content-"Google" WHERE id 


Query OK, 1 row affected (0.05 sec) 
Rows matched: 1 Changed: 1 Warnings: 0 


图 6-21 修改 数据 


本 节 讲 述 了 6 个 基本 的 MySQL 数 据 库 的 操作 ， 包 括 创建 数据 库 、 创 建 数据 表 、 在 数据 表 中 插入 数据 、 提 取 数 据 、 删 除数 据 和 修改 数据 。 掌 握 这 些 技能 已 经 能 够 让 你 将 网 络 聆 虫 获取 的 数据 存储 到 MySQL 
数据 库 中 。 如 果 还 想 深 入 学 习 MySQL， 可 以 参考 网 上 的 菜鸟 教程 : 


我 们 已 经 熟悉 了 MySQL 的 一 些 操作 ， 如 何 用 Python 操作 MySQL 呢 ?下 面 将 把 Python 网 络 疏 虫 和 和 MySQL 数据 库 连 接 起 来 进行 介绍 。 使 用 Python 操作 MySQL 主 要 有 几 个 库 ， 本 书 介绍 的 PyMySQL 安 装 
方便 ， 支 持 Python3。 


首先 ， 需 要 用 pip 安 装 PyMySQL 库 ， 连 接 Python 和 MySQL。 在 命令 行 中 输入 : 


pip install pymysql 
安装 完成 后 ， 我 们 可 以 党 试用 Python 操作 MySQL， 在 数据 库 中 插入 数据 ， 记 得 把 下 面 的 passwd 密 码 改 成 你 自己 的 密码 : 


import pymysql 
# 打开 数据 库 连 接 


db = pymysql.connect ("localhost","root","password","scraping" ) 


fii A cursor () 方 法 获取 操作 游标 


cursor = db.cursor() 


* SOL 插入 语句 

sql = """INSERT INTO urls (url, content) VALUES ('www.baidu.com', 'This is content.')""" 

try: 

# 执行 sql 语 句 

cursor.execute (sql) 

# 提交 到 数据 库 执行 

db.commit () 

except: 

# 如 果 发 生 错 误 则 回 滚 
db.rollback() 

# 关闭 数据 库 连 接 

db.close() 


打开 MySQL 8.0 Command Line Client-Unicode， 查 看 一 下 结果 。 如 果 结 果 如 图 6-22 所 示 ， 就 表示 成 功 插入 了 一 行 新 的 数据 。 


SELECT * FROM scrapinz.url: 


e - €" " - - Li e) m) Li 
Wn. S00: De 


www. baldu. com ls 15S 2018-11-25 23. 


rows 


图 6-22 ”插入 新 的 数据 


其 中 ，db=pymysql.connect(0 用 于 创建 数据 库 的 连接 ， 里 面 可 以 指定 参数 (用 户 名 、 密 码 、 主 机 等 信息 ) 。cursor=db.cursor() 通 过 获取 的 数据 库 连 接 conn 下 的 cursor() 方 法 来 创建 游标 。 之 后 ， 通 过 
游标 cur 操 作 execute() 方 法 可 以 写 入 纯 SQL 语 句 。 


最 后 ， 在 完成 对 MySQL 数 据 库 的 操作 后 ， 记 得 关闭 数据 库 连接 。 


接 下 来 ， 就 可 以 把 之 前 在 博客 他 取 的 标题 和 url 地 址 使 用 Python 存 储 到 MySQL 数 据 库 中 了 ， 代 码 如 下 : 


import requests 
from bs4 import BeautifulSoup 
import pymysql 


db = pymysql.connect ("localhost","root"," password","scraping" ) 
cursor = db.cursor() 


link = "http://www.santostang.com/" 
headers = ('User-Agent' : 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'} 
r = requests.get(link, headers- headers) 


soup = BeautifulSoup(r.text, "lxml") 
title list = soup.find all("hl", class -"post-title") 
for eachone in title list: 


url = eachone.a['href'] 

title = eachone.a.text.strip() 

cursor.execute ("INSERT INTO urls (url, content) VALUES ($s, $s)", (url, title) ) 
db. commit () 
db.close() 


在 Jupyter 中 输入 上 面 的 代码 ， 运 行 得 到 的 结果 如 图 6-23 所 示 。 


content created time 

google.com Google 2018-11-25 22:32:12 
www.baidu.com This is content. 2018-11-25 23:24:14 
http: //www.santostang.com/20 18/07/15/4-3-%e9%8... 4.3 用 7 二 selenium 181b Usi Sti BD 2018-11-28 23:14:41 
http: //www.santostang.com/2018/07/14/4-2-%e8%a... 4.2 解析 真实 地 址 抓 职 2018-11-28 23:14:41 
http://www.santostang.com/2018/07/14/%e7%ac%... SME- 动态 了 网 内 抓 取 ( 解 林 真 飞 地 址 +sele... 2018-11-28 23:14:41 
http://www.santostang.com/2018/07/11/%e3%380%... 长 了 网络 取 虫 : MAT SCH» 一 书 勘误 2018-11-28 23:14:41 
http: //www.santostang.com/20 18/07/04/hello-world / Hello world! 2018-11-28 23:14:41 
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本 节 讲 述 了 Python 操作 MySQl 数 据 库 的 一 些 基 本 命令 ， 包 括 如 何 执行 MySQL 命 令 和 插入 数据 。 如 果 还 想 深 入 学 习 MySQL， 可 以 参考 网 上 的 菜鸟 教程 : http://www.runoob.com/python3/python3- 
mysdql.html。 


6.3 ”存储 至 MongoDB 数 据 库 


TER ZRITEERASES SFA EXE, AANER IEE SONE, ixBieHEERRRINoOSQLEUISEECGEÉSUERE T. ANTUSHTMBSRINoSQLm3ERSIGGRJMongoDB(E7ZIGIs FE. 


NoSQL 泛 指 非 关系 型 数据 库 。 传 统 的 SQL 数 据 库 把 数据 分 隔 到 各 个 表 中 ， 并 用 关系 联系 起 来 。 但 是 随 着 Web 2.0 网 站 的 兴起 ， 大 数据 量 、 高 并 发 环境 下 的 MySQL 扩 展 性 差 ， 大 数据 下 读 取 ， 写 入 压力 
大 ， 表 结构 更 改 困 难 ， 使 得 MySQL 应 用 开发 越 来 越 复杂 。 相 比 之 下 ，NoSQL 自 诞生 之 初 就 容易 扩展 ， 数 据 之 间 无 关系 ， 具 有 非常 高 的 读 写 性 能 。 


6.3.1 “下载 安 装 MongoDB 


MongoDB 是 一 款 基 于 分 布 式 文件 存储 的 数据 库 ， 本 身 就 是 为 Web 应 用 提供 可 扩展 的 高 性 能 数据 存储 。 因 此 ， 使 用 MongoDB 人 存储 网 络 爬 虫 的 数据 再 好 不 过 了 。 


下 面 将 介绍 Windows 系 统 中 MongoDB 的 下 载 和 安装 方式 。 


步骤 01 ”下载 MongoDB 。 进 入 MongoDB 的 下 载 页 面 (https://www.mongodb.com/download-center#community) ， 下 载 Windows 的 msi 版 本 ， 如 图 6-24 所 示 。 


Select the server you would like to run: 


MongoDB Community Server 
FEATURE RICH. DEVELOPER READY. 


Version os 


4.0.4 (current release) v Windows 64-bit x64 


Package 


MSI s Download 


https;//tastdi mongodb.ora/win32/mongodb-win32-x86  64-2008plus-ssl-4.0.4-signed.ms 


图 6-24 下载 MongoDB 


步骤 02 安装 msi 程 序 。 下 载 后 双击 安装 程序 ， 安 装 过 程 非常 简单 ， 为 了 方便 安装 ， 直 接 选 择 Complete， 如 图 6-25 所 示 。 完 成 后 程序 默认 在 C:\Program Files\MongoDB 中 。 


jF MongoDB 4.0.4 2008R2Plus SSL (64 bit) Setup 


Choose Setup Type 
Choose the setup type that best suits your needs 


Complete 
All program features will be installed. Requires the most disk space. 
Recommended for most users. 


Custom 
Allows users to choose which program features will be installed and where 
they will be installed. Recommended for advanced users. 


图 6-25 ”选择 安装 类 型 


步骤 03 ARERR. ACH F 4 EC:\data\db4eC:\data\log A LH K, 4 A6-26 Pwo 


i 


名 称 


图 6-26 ”创建 文件 夹 


然后 在 log 文 件 夹 下 创建 一 个 日 志文 件 mongodb.log， 地 址 为 C:\data\log\mongodb.log， 如 图 6-27 所 示 。 


System (C:) » data 


x 快速 访问 
mongodb.log 
Ege 


图 6-27 创建 log 文 件 


data 文 件 来， 顾名思义 是 用 来 存放 MongoDB 数 据 的 文件 来 。 其 中 ，db 文 件 夹 用 来 存放 MongoDB 的 数据 库 (database) ，log 文 件 夹 用 来 存放 数据 库 的 操作 记录 。 


创建 MongoDB 的 数据 库 文件 。 打 开 cmd.exe， 输 入 cd C:\Program Files\MongoDB\Server\4.0\bin， 跳 转 到 MongoDB 所 在 的 文件 夹 。 然 后 输入 mongod.exe--dbpath c:\data\db， 此 命令 可 以 将 MongoDB 
8 gr 8o 8 g P 8 


的 数据 库 文件 创建 到 已 经 建 好 的 c:\data\db 文 件 夹 中 ， 如 果 创 建成 功 ， 可 以 看 到 如 图 6-28 所 示 的 情 


ae Stas - mongod.exe --dbpath c:\data\db = a X 


4.508+0800 I CONTROL [initandlisten] ** Remote systems will 
i onn ect to this server. 
: 10:14, 509108 00 I CONTROL [initandlisten] ++ Start the server with - 
ai add lress? to specify which IP 
29T00: 10:14 . 510408 00 I CONTROL [initandlisten] ** addresses it should ser 
res esp mses from or witl in _11 _all to 
11-29T00: 10:14. 5 J800 I CONTROL  [initandlisten] ** bind to all interfaces. 
thi = beh or is est red, 
11-29T00:10:14. 512+0800 | CONTRO! [initandlisten] ++ server with --bind ip 1 
] Lo sable this warni . 
11-281Q0: 10: 14. 513408500 D L 2 TROL  [initandlisten] 
: 14, 5] 7408 M 1 STORAGE lini 1 andl l: at ten] createCollection: admin. system vers 
1p rovided UUID: '-Ualc-4áb35-bald-b53i int 
0:10:14, 535 +0 S00 E! ^ONNAND Lini! andl i isten] sett ing featureCompatibilityVersion 


11 =249T :14. 53940800 I STORAGE  linitandlisten] createCollection: local. start up_log 
“with generated. un) "Moers ee eee ena 
a018-11-29T00: :14, 769+0800 I FTDC Li nitandli sten] Initializi [1g full-time di agnosti ed 
ata {capture with rcd ditt 7 ez /data/db/ ‘diagnosti lata 
10:14, 79340800 I STORAGE LL ozicalSessionCacheRefres ch] < eCollection: conf 
ru with generated UlllD: 129919) '0-4535-4404- abYb-Y9Y/ )d3 e 56a Tc 
: 14. 7 795+08( 00 I NETWORK lini tandlister al s ¥alting for 


ionCacheRefresh] build ingex on: config 
1), name: "lsidTTLInde 5: “ config 


, € fterSeconds: | 
: 14. 8 315408 UO I INDEX calSession-achekefresh building index usi 
| bai d may temporarily use up to 500 megabytes Al 
11-20T : 14. 815-0500 I INDEX [LogicalSessionCacl index done. sca 
( total pittin i 


图 6-28 创建 数据 库 


使 用 MongoDB 主 要 有 两 种 启动 方式 ， 一 种 是 以 程序 的 方式 打开 ， 另 一 种 是 以 Windows 服 务 的 方式 打开 。 在 使 用 MongoDB 时 ， 一 般 使 用 Windows 服 务 的 方式 打开 ， 这 样 比较 方便 。 下 面 介绍 这 两 种 启 


动 方式 。 


使 用 MongoDB 的 程序 启动 方式 。 打 开 MongoDB 安 装 文件 来 ， 默 认为 C:\Program Files\MongoDB\Server\4.0\bin， 找 到 mongod.exe 双 击 打 开 (注意 有 d 的 为 启动 程序 ) 。 启 动 程序 后 ， 再 运行 


mongo.exe 程 序 ( 没 有 d) ， 如 图 6-29 所 示 。 


$t C:\Program Files\MongoDB\Server\4.0\bin\mongo.exe = L X 


ht tp: / / groups. goo gle B. c om/ e Zr OUD, Th mgo db-user 
DeY9ET has startup warning 
a( 2 308 . 73940800 I CONTROL  [initandlisten] 
2018-11-29T00: ‘11. 729402 0 I CONTROL [initandlisten] ** WARNING: Access contro 
] is not enabl od 1 for the database. 
JU18-1L1-29 1 00:08 lo 3-500 | CONTROL [i nitandlist on | dx .ead and writ 
| to " and configuration 1s unrestricted. 
|-20T00:03:11.73940800 I CONTROL  linitandlisten] 


nable MongoDB’ ree cloud-based monitoring service, which will then receive and 
display 
metrics about your deployment (disk utilization, CPU, operation s 


monitoring data will be available on a MongoDB website with a unique URL : 


to vou 
and anyone you share the URL with. MongoDB may use this information to make 
^t 
improvements and to suggest MongoDB products and deployment options to you. 


o enable free monitoring, run the following command: db. enableFreeNMonitoring() 
To permanently disable this reminder, run the following c ommand: : db. disableFreeMo 
dtorinzl 


show dbs 
] J. QOOGB 
D. OOQGB 
J. QOOGB 


图 6-29 ”启动 mongo.exe 程 序 
在 其 中 可 以 操作 MongoDB 数 据 库 ， 例 如 输入 : 
Show dbs 


可 以 查看 所 有 数据 库 。 当 mongod.exe 被 关闭 时 ，mongo.exe 就 无 法 连接 到 数据 库 了 ， 因 此 每 次 想 使 用 mongodb 数 据 库 时 都 要 开启 mongod.exe 程 序 ， 比 较 麻 烦 。 相 比 之 下 ， 以 Windows 服 务 的 方式 
打开 就 方便 得 多 


以 Windows 服 务 的 方式 打开 。 以 管理 员 的 身份 运行 cmd.exe， 输 入 : 


cd C:\Program Files\MongoDB\Server\4.0\bin 


切换 全 MongoDB 安 装 目录 的 bin 文 件 夹 ， 然 后 输入 : 


mongod.exe --logpath "C:\data\log\mongodb.log" --logappend --dbpath "C:\data\db" --serviceName "MongoDB" --install 


这 里 MongoDB.log 就 是 开始 建立 的 日 志文 件 ，--serviceName"MongoDB" 服 务 名 为 MongoDB。 这 时 ，Windows 服 务 运 行 模式 已 经 安装 完成 了 ， 接 下 来 要 启动 MongoDB， 表 输入 : 


net start MongoDB 


如 果 看 到 如 图 6-30 所 示 的 界面 ， 就 表示 MongoDB 已 经 成 功 启动 了 。 


: V n ] ws system 39 


‘\Program Files\Hong 


serviceName MongoDB’ 
‘ L E 


es \MongoDB \Server \4. O\birm>net star 


f» E] 
dw. 


44 


获得 更 多 的 帮助 。 


s\MongoDB\Server \4. 


6.3.2 MongoDB 的 基本 概念 


C:\data\log\mongodb. log logappend dbpath 


[main] Automatically disabling TLS 1.0, to force-enable TLS 1.0 specify 


图 6-30 ”成 功 启动 MongoDB 


为 了 更 好 地 理解 MongoDB 的 基本 概念 ， 如 文档 、 集 合 和 数据 库 ， 我 们 可 以 将 MongoDB 和 SQL 的 一 些 概念 进行 比较 ， 如 表 6-2 所 示 。 


SQL 术语 | MongoDB 术语 


表 6-2 SQL 与 MongoDB 术 语 的 比较 


解释 /说 明 | 


数据 库 表 / 集 合 
数据 记录 行 /文档 


primary key primary key 


主键 ，MongoDB 目 动 将 id 字段 议 置 为 主键 


我 们 可 以 使 用 SQL 的 概念 理解 MongoDB， 如 MongoDB 中 的 集合 (collection) 类 似 MySQL 中 的 表格 , 文档 (document) 类 似 MySQL 中 的 数据 记录 行 (row) ， 域 (field) 类 似 MySQL 中 的 数据 字 


段 (column) 。 


6-31 展 示 了 一 个 例子 ， 根 据 此 例 可 以 更 好 地 理解 MongoDB 的 一 些 概念 。 


park location lat location Ing 
南京 市 ”玄武 湖 公 园 32.0786 118.8 
南京 市 ”珍珠 泉 勾 园 32.1281 118.665 


{ 
" id": ObjectiID(6265d58ddc79ad61df1e5286), 


"city": “Rae”, 
"park": “玄武 湖 公 园 ” 
"location lat": 32.0786, 
"location. Ing": 118.8 


} 


{ 
" jd": ObjectlD(f633606a1b34ba4eObe69d9fc), 


“city”: “南京 市 ” 
"park": “ERIR A i”, 
"location lat": 32.1281, 
"location. Ing": 118.665 


j 


显示 SQL 与 MongoDB 对 应 的 关系 


不 过 MongoDB 与 SQL 数 据 库 有 很 大 区 别 ，MongoDB 的 文档 不 需要 设置 相同 的 字段 ， 并 且 相 同 的 字段 不 需要 相同 的 数据 类 型 。 如 图 6-32 所 示 ， 第 一 个 数据 中 有 "park","location_lat","location_Ing" 字 


Bg, 但 是 第 二 个 数据 的 字段 没有 这 些 字段 。 


{ 

" id: ObjectID(6265d58ddc79ad61df1e5286), 
“city”: "Bj tili", 

“park”: “ZAWA pd", 

"location lat": 32.0786 ， 

"location Ing": 118.8 

j 

{ 

" id": ObjectID(f633606a1b34ba4e0b69d9fc), 
"name": "Peter", 

"email: “peter@gmail.com”, 

"age": 18, 


"city": “北京 市 ” 
] 


图 6-32 MongoDB 的 文档 不 需要 设置 相同 的 字段 


6.3.3 ”Python 操作 MongoDB 数 据 库 


我 们 已 经 熟 悉 了 MongoDB 的 一 些 基本 概念 ， 那 么 如 何 用 Python 操 作 MongoDB 呢 ? 下 面 将 把 Python 网 络 息 曰 和 和 MongoDB 数 据 库 连 接 起 来 进行 介绍 。 
我 们 需要 用 pip 安 装 PyMongo 库 ， 连 接 Python 和 MongoDB。 在 命令 行 中 输入 : 


pip install pymongo 


安装 完成 后 ， 可 以 尝试 用 Python 操 作 MongoDB， 监 测 能 否 正常 连接 到 数据 库 。 


from pymongo import MongoClient 
client = MongoClient ('localhost',27017) 
db = client.blog database 

collection = db.blog 


首先 ， 我 们 需要 连接 MongoDB 的 客户 端 ， 然 后 连接 数据 库 blog_database， 如 果 该 数据 库 不 存在 ， 就 会 创建 一 个 数据 库 。 接 下 来 选择 该 数据 的 集合 blog， 该 集合 不 存在 时 也 会 创建 一 个 。 上 述 代 码 成 
功 运行 则 代表 没有 问题 。 


接 下 来 ， 我 们 要 将 有 代 取 博客 主页 的 所 有 文章 标题 存储 至 MongoDB 数 据 库 ， 代 码 如 下 : 


import requests 
import datetime 
from bs4 import BeautifulSoup 
from pymongo import MongoClient 


client = MongoClient ('localhost',27017) 
db = client.blog database 
collection = db.blog 


link = "http://www.santostang.com/" 
headers = {'User-Agent' : 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'} 
r — requests.get(link, headers- headers) 


soup = BeautifulSoup(r.text, "lxml") 
title list = soup.find all("hl", class ="post-title") 
for eachone in title list: 

url = eachone.a['href'] 

title = eachone.a.text.strip() 

post = {"url": url, 

"title": title, 

"date": datetime.datetime.utcnow () } 
collection.insert one (post) 


在 上 面 的 代码 中 ， 首 先 将 爬虫 获取 的 数据 存 入 post 的 字典 中 ， 然 后 使 用 insert _ one 加 入 集合 collection 中 。 进 入 目录 C:\Program Files\MongoDB\Server\4.0\bin, XXimongo.exefJ2T, $A: 


use blog database 
db.blog.find().pretty () 


这 样 就 能 够 查询 数据 集合 的 数据 了 ， 如 图 6-33 所 示 。 


$ CAProgram Files\MongoDB\Server\4.0\bin\mongo.exe 
use blog 
1tched to db b 

.. blog. find(). 


id : ObjectId( 5bfecOf3fadf3734c40ffe8c 
"url : http://www. santostang. com/2018/07/15/4-3-*e9088059a*e85bf887selenium-*he65a8*a156e688b59fS$e65$b558f9$689*a THE 
346594005398 6e658a45034e54581£4$096/" , 
i titl Z i , i 4 3 E] DET enium 模 相 该 zo; AN’ ) 
"date : ISODate( 2018-11-28T16:23:15. 267Z 


FA 


1f3734 
ang. COM, | D i g enw 4 7% 4 : X eĝ% Se A* T0, T-Y4. 


Yo E E 4 1 X (a s. a e% 4 已 X 已 BY Q C KT: ) ) X e 5 h Q d*8 | IY e Â hi z a ^ E 


JbjectIdi 5bfecOf3Sfadf3/34c4O0ffeSe 
http:/ Sa z. com/ 2C 
e f % Q hi on y n Q » a 7 


2018/07/14/*e/'Sac*ac*e5SObSOb*e7'babha0SeftibcOaeb5S3a*Sase55809 
Aa Xe À i Qe%9 He? X Qc E ü I MeD X A =Y Qe%e5 ^ 4 - 


M O0c950€e595$9d*$80-selenium/ 
解析 真实 地 址 + selenium)" 


/ www. santostang. com 2015/07 
haces IJe%hekhb (hbo he ShRON: 


/11/He3shs0%sahe (bday lhe 
ok edhe c X € O%e 4b 4 X a f neo 
ge 


图 6-33 ”查询 数据 
本 节 学 习 了 Python 操作 MongoDB 数 据 库 的 一 些 基本 命令 ， 如 插入 数据 。 如 果 还 想 ; 


~ 


o 


入 学 习 Python 操 作 MongoDB 数 据 库 ， 可 以 到 PyMongo 的 官方 网 站 学 习 ， 地 址 


RoboMongo 是 MongoDB 的 图 形 化 管理 工具 ， 只 


有 高 亮 显示 总 感觉 缺少 点 什么 。 


PAX 


要 会 使 用 mongo shell， 就 可 以 使 用 RoboMongo。 在 6.3.3 小 节 中 ， 我 们 在 MongoDB 的 shell 中 打印 出 了 db.blog 的 数据 ， 但 是 不 太 容 易 查看 ， 数 据 没 
如 果 你 想 可 视 化 地 管理 MongoDB 的 数据 ， 可 以 试 一 试 使 用 RoboMongo。 下 面 介绍 RoboMongo 的 安装 。 
进入 


下 载 Robo 3 本 选择 Windows 版 本 ，robo3t-1.2.1-windows-x86_64-3e50a65.exe ， 如 图 6-34 所 示 。 


Windows | Mac Linux 


Robo 3I 1.2 


Download installer for Windows 64-bit: 
robo3t-1.2 1-windows-x86 64-3e50a65.exe 


Download portable version for Windows 64-bit 
(9) robo3t-1.21-windows-x86 64-3e50865 zip 


图 6-34 下载 RoboMongo 


步骤 02 双击 程序 安装 Robo 3T。 人 安装 完成 后 ， 打 开 已 经 安装 好 的 程序 ， 在 对 话 框 中 选择 Create， 如 图 6-35 所 示 。 在 下 一 个 对 话 框 中 ， 按 照 默 认 选 项 单 击 Save。 之 后 ， 对 于 新 创建 的 这 个 连接 ， 单 击 


Connect, 


= MongoDB Connections 


Create, fii: remove, clone or reorder connections via drag n drop. 
Attributes Auth. Database / User 


Name Address 
B! New Connection localhost:27017 


图 6-35  3X-3&Create 


步骤 03 查看 数据 库 。 这 时 可 以 看 到 左边 菜单 中 的 blog_database， 单 击 打 开 ， 再 单 击 Collection， 可 以 看 到 其 中 的 blog， 再 单 击 blog 可 以 看 到 所 有 的 标题 数据 ， 如 图 6-36 所 示 。 


® Robo 3T - 1.2 
File View Options Window 


= ~| | - > B5 
[Bl New Connection (4) 
System 
v H blog database à; 
v Collections (1) 
> ES blog 


Help 


blog 
Functions 


Users Key 


ES config 


3l (2) Objectld(" 5bfecOf3fadf3734c40ff... 
id 


"| url 


T: 


Hew Connection 


国 lasalhazst:27017 


db.getCollection('blog').find(1)]) 


心 0.001 sec. 


w i3 (1) Objectld(5bfecof3fadf3734c40ff... 


"| title 


date 


È Welcome X ij db. getCollectiont’ blog 3." x | 


blog database 


«Ls Ts |> | Seale 


Value Type 
{ 4 fields } bjer 
Objectld(" 5bfecOf3fadf3734c40ffe8c") 
http://www,santostang.com/2018/07/15/4-3... St 
4,3 通过 selenium Shin) rss EX St 
2018-11-28 16:23:15.267Z 

[ A fields } 

Objectld(" 5bfecOf3fadf3734c40ffeBd") 
http://www.santostang.com/2018/07/14/4-2... 5 
4.2 RSE 

2018-11-28 16:23:15.3072 


KH (3) Objectld(" 5bfecOf3fadf3734c40ff... 
KI (4) Objectld(" 5bfecOf31adf373Ac40ff... 
KY (5) Objectld(" 5bfecOf3fadtf3734c40ff... 


[A fields ) 
[A fields ) 
[A fields } 


图 6-36 BARE 


在 对 话 框 的 右边 能 够 很 清楚 地 看 到 所 有 的 数据 ， 这 种 显示 方式 是 不 是 比 Mongo Shell 中 呈现 得 更 加 清晰 呢 ? 另外 ， 上 面 还 提供 了 找到 这 个 数据 的 命令 ， 图 6-36 中 显示 的 是 
db.getCollection('blog').find(0})， 我 们 也 可 以 用 该 命令 在 Mongo shell 中 找到 想 要 的 数据 。 


6.4 I 


我 们 可 以 在 不 同情 境 下 使 用 不 同 的 数据 存储 方式 。 如 果 仅 仅 用 来 存储 测试 用 的 数据 ， 推 荐 使 用 TXT 或 CSV 格 式 ， 因 为 这 两 种 格式 写 入 和 读 取 都 非常 方便 ， 可 以 很 快速 地 打开 文件 查看 。 


但 是 ， 当 TXT 或 CSV 文 件 过 大 时 ， 使 用 Notepad 记 事 本 打开 txt 文 件 就 要 人 花费 很 长 时 间 ， 用 Excel 打 开 CSV 文 件 更 是 惨不忍睹 ， 试 过 的 人 都 知道 。 而 且 要 修改 其 中 的 数据 也 非常 麻烦 。 因 此 ， 当 数据 量 比较 
大 、 要 与 别人 交换 或 别人 也 要 访问 时 ， 使 用 数据 库 是 一 个 明智 的 选择 。 


如 果 存 储 的 数据 不 是 关系 型 数据 格式 ， 推 荐 选择 MongoDB， 甚 至 可 以 直接 存储 有 季 取 的 JSON 格 式 数 据 而 不 用 进行 解析 。 如 果 是 关系 型 的 表格 形式 ， 那 么 可 以 使 用 MySQL 存 储 数据 。 


65 ”MongoDB 拒 虫 实践 : 虎 扑 论坛 


本 章 的 实践 项 目 是 获取 虎 扑 步行 街 论坛 上 所 有 帖子 的 数据 ， 内 容 包括 帖子 名 称 、 帖 子 链接 、 作 者 、 作 者 链接 、 创 建 时 间 、 回 复数 、 浏 览 数 、 
73https;//bbs.hupu.com/bxj. 


最 后 回复 用 户 和 最 后 回复 时 间 ， 网 页 地 址 


6.5.1 ”网 站 分 析 


使 用 Chrome 打 开 虎 扑 步行 街 的 网 站 页 面 ， 然 后 使 用 “检查 ”功能 查看 网 页 的 请 求 头 ， 如 图 6-37 所 示 。 


站 务 管理 
更 多 版 块 y 


主题 
[置顶 ] S4T SAS GAR. HESA 59533180. DSi! s ES) s 
PARSE... [23 ] 
第 一 次 要 和 女 朋友 同居 ， 家 做 们 有 什么 建议 或 者 提醒 的 嘛 ?9 [9 2 3...11 ] 


xr Xm TID RA X045 7 efle ERE zt [99 23..7 ] 


[ABS tboys=T+ASARISR im f? v [®™ 2 3...6 ] 


程 潇 今天 这 张 照片 什么 水 平 ? FRA? s [99 23..8 ] 


[x dl Elements Console Sources Network Performance Memory Application Security Audits Adblock Plus 


html class="expanded 
script src-"//hm.baidu.com/hm.3s239fc58a.."»«/script 
script src-"https://securepubads.g.coubleclick.net/gampad/ads?gdfp reg-1&pvsid-296.. 
15434228818ga sid-1543422881&ga hid=1195653901&Fws=4%2C4%2C2%2C128%2C2%2C2" ></script> 
script src-"https://securepubads.g.coubleclick.net/gpt/pubads impl rendering 275.]s"»«/script 
script async type-'text/javascript" src-"https://www.googletagservices.com/tag/js/gpt.js"»«/script 
script src-"chrome-extension://lidobmomdgdljiniojadhonlhknialdid/pDage/prompt.js"»«/script 
(script src-"chrome-extension://1ljdobmomdgdljniojadhoplhkpialdid/page/runScript.js"»«/script 
head»...« /head 
body style 
<!--topbarNav star--> 
b «div id="hp-topbarNav">_</div 
<!--topbarNav ent--> 
<!--header star--> 
> <div class="hp-header hp-header-B">..</div 
> <script>..</script 
script type-"text/javascript" src-"//b3.hoopchina. com.cn/web/channel/bbs/static/common/js/jquery/jquery 
/script 
v Class-"hp-threeNav'»..«/div 
v id style-"width:px; height:px;">..</div 
| class-"showdiv" style="height: 5794px;">..</div 
v id-"j tip" class-"tips up pop" style="position: fixed; left: 40%; top: 30%;">..</div 
v Class-"bbs-content' 
:: before 
div id-"container" 


Q 
m 


aaa 总 
"m 


图 6-37” 虎 扑 步行 街 的 网 站 页 面 


作者 

虎 扑 团队 
2017-01-18 
我 爱 日 皇 
2018-11-28 
AGEPMSURISESR 


2018-11-28 


YoungBoi 
2018-11-28 


TcxkH-— BRE 
2018-11-28 
bofilc 


101011 ^n 


A 


[-1.12.0.min 71bada2.js" 


[ere / eS 最 后 回复 
2017-02-27 

去 扑 团队 

00:34 

理智 合理 要 日 天 
00:34 

五 环 儿 

00:34 

Ip (Ec CAES 
FAN 

00:34 
Hydrogenbond 


1 / 3223338 


43 / 22090 


213 / 67467 


ut 
130 / 85973 


102 / 65114 


00:34 


155 / 258149 
o4 


Styles Computed — Eventlisteners » 


Filter 


element.style { 
h 


body .bbs-content bbsCommon 987e24ba.css:14 
#container .contaeiner pedd .bbsPlete { 

width: 145px; 

height: auto; 

float: left; 

min-height: 1050px; 
Y 
body, button, dd, div, dl, common-v1.css:1 
dt, form, hi, h2, h3, h4, h5, h6, html, 
iframe, input, li, ol, p, select, table, td, 
textarea, th, ul ( 

margin: > ð; 

padding: > 8; 


div { user agent stylesheet 
display: block; 

3s 

Inherited from body 


body i bbscommon 07e24Da.c55:16 


首先 ， 可 以 在 网 页 上 定位 帖子 名 称 、 帖 子 链接 、 作 者 、 作 者 链接 、 创 建 时 间 、 回 复数 、 浏 览 数 、 最 后 回复 用 户 、 最 后 回复 时 间 所 在 的 位 置 ， 方 便 之 后 使 用 BeautifulSoup 在 网 页 中 定位 这 些 数据 。 


根据 前 面 介绍 的 方法 ， 以 上 数据 所 在 的 位 置 如 表 6-3 所 示 。 


表 6-3 数据 所 在 的 位 置 


位 置 


div.class 'titlelink box > a 
'div',class -'titlelink box' > al'href'| 
div.class —authorbox > a 
div.class 'authorbox' >  a['href] 
'div,class —author box' >  contents[5] 
ELT EE 


浏览 数 


'span'class —'ansour box' 


最 后 回复 用 户 'div,class ='endreply box' > a 
最 后 回复 时 间 'div,class ='endreply box! > span 


除 此 之 外 ， 我 们 发 现 虎 扑 步行 街 的 网 站 内 容 最 多 显示 100 页 ， 如 图 6-38 所 示 。 


图 6-38 ”最 多 显示 100 页 的 内 容 


另外 ， 当 打开 第 二 页 的 时 候 ， 网 页 URL 地 址 变 成 了 https://bbs.hupu.com/bxj-2。 当 打开 第 三 页 的 时 人 息 ， 网 页 URL 地 址 变 成 了 https://bbs.hupu.com/bxj-3。 


这 样 就 很 容易 理解 了 ， 当 翻 页 的 时 候 ， 只 是 将 网 页 URL 地 址 的 最 后 一 个 数据 换 成 了 相应 的 页 数 。 


6.5.2 ”项 目 实 践 


在 得 到 每 一 个 数据 所 在 的 位 置 后 ， 我 们 可 以 首先 尝试 获取 第 一 页 的 数据 。 这 个 尝试 的 目的 是 发 现 第 一 页 获取 的 数据 是 否 有 问题 。 发 现 没 问题 后 ， 才 可 以 应 用 这 个 解析 数据 的 代码 将 数据 添加 到 


MongoDB 数 据 库 中 。 然 后 才 可 以 爬 后 面 的 页 面 。 


获取 第 一 页 数据 的 代码 如 下 : 


import requests 
from bs4 import BeautifulSoup 
import datetime 


# 获取 页 面 
def get page (link): 
headers = {'User-Agent' : 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'} 


r = requests.get(link, headers = headers) 
1 = r.content  # 使 用 r.content 解 封装 
html = html.decode('utf-8')  4HUTF-8ffffijJjunicode 
= BeautifulSoup(html, 'lxml') 

return soup 


def get data(post list): 
data list -[] 

for post in post list: 
title -post.find('div',class -'titlelink box').text.strip() 
post link = post.find('div',class -'titlelink box').a['href'] 


post link = "https://bbs. hupu. com" + post link 


author -post.find('div',class -'author box').a.text.strip() 
author page -post.find('div' C] ass ='author box').a['href'] 
start date = post.find('div',class -'author box').contents[5].text.strip() 


reply view = post .find('span',class -'ansour box').text.strip() 
reply = reply view.split('/') [0].strip() 
view = reply view.split('/') [1].strip() 


reply time = post.find('div',class -'endreply box').a.text.strip() 
last _reply = post.find('div',class -'endreply box') .span.text.strip () 
if ':' in reply time: # 时 间 是 11:27 
date time = str(datetime.date.today()) + ' ' + reply time 
date time datetime.datetime.strptime (date time, '£Y-$m-$d %SH:%M') 
elif reply time.find("-") == 4: # 时 间 是 2017-02-27 
date time datetime.datetime.strptime(reply time, '$Y-$m-$d').date() 
else: # 时 间 是 11-27 
date time datetime.datetime.strptime('2018-' + reply time, '$Y-$m-$d').date() 
data list.append([title, post link, author, author page, start date, reply, view, last reply, date time]) 


return data list 


link = "https://bbs.hupu.com/bxj" 
soup = get page (link) 


post all- soup.find('ul', class —'for-list") 
post list = post all.find all('li') 
data list = get í data (post . list) 


for each in data list: 
print (each) 


fr EXMIBrR, $ei)fsSRiget page AARRE, AMARA, XJJOGXAEREUIVOFSRUA textu zr.content, MEA ALICIA ozp, sesRfsSRdr.contentfz2&, AICS 
由 UTF-8 解 码 为 unicode。 这 部 分 涉及 Python 中 的 编码 问题 ， 在 本 书 的 第 10 章 会 详细 介绍 


在 获取 页 面 内 容 之 后 ， 我 们 就 可 以 使 用 Beautifulsoup 解 析 想 要 的 内 容 了 。 这 里 使 用 了 一 个 函数 get_data( 来 解析 soup 中 的 数据 。 在 get_data(0 中 ， 值 得 注意 的 是 ， 获 取 的 回复 和 浏览 量 是 一 个 字符 串 ， 
如 '45/2906'。 因 此 ， 我 们 需要 使 用 reply_view.split(/) 将 它 分 割 成 一 个 列表 list， 然 后 分 别 取出 回复 量 和 浏览 量 。 


此 外 ， 可 以 注意 到 如 果 是 当天 (也 就 是 你 查看 网 页 的 这 一 天 ) 回复 的 帖子 ， 只 会 显示 当天 的 回复 时 间 ， 没 有 显示 回复 日 期 。 所 以 ， 我 们 要 进行 判断 ， 如 果 在 回复 时 间 里 有 冒号 “:” ， 那 么 就 要 用 今天 的 


日 期 加 上 回复 时 间 : 
if ':' in reply time: 
date time = str(datetime.date.today()) + ' ' + reply time 
date time = datetime.datetime.strptime (date time, '$Y-$m-$d $H:$M') 


此 外 ， 如 果 是 本 年 度 的 回复 ， 就 会 显示 “月 -日 ”， 如 果 是 上 一 年 的 回复 ， 就 会 显示 完整 的 “年 -月 -日 ”。 这 里 也 可 以 对 不 同 的 情况 进行 处 理 ， 使 用 datetime 将 记录 时 间 的 字符 串 转化 为 统一 的 时 间 格 


date time datetime.datetime.strptime (reply time, '$Y-$m-$d'). 
' 


dat : 
date time = datetime.datetime.strptime('2018-' + reply time, Y- 


9 
Ks 


这 个 转换 很 简单 ， 只 用 将 时 间 的 格式 '"%Y-%m-%d' 和 字符 串 记 录 时 间 的 格式 匹配 即 可 完成 。 
运行 上 述 代码 ， 得 到 的 结果 是 : 


["[ 置 顶 \n 步 行 街 主干 道 版 规 (严禁 人 人肉、 时政 敏感 帖 ， 禁 发 募捐 帖 ， 切 勿 轻信 人 他人， 谨防 诈骗 ) ','https://bbs.hupu.com/15806550.html'," 虎 扑 团 
ee oh i S , 2017-01-18',1',3223399'/ ' 虎 扑 团队 ,datetime.date(2017,2,27)] 


[我 凭借 这 首 诗 ， 可 以 占据 古风 圈 的 半壁 江山 吗 ? \n\n\xa0\n\n[\xa0\n2\n3\n\n\xa0]','https://bbs.hupu.com/24538338.html',' 十 一 月 的 长 安 乱 ,https://my.hupu.com/39883852669530','2018- 
11-28',47',18568'' 瑞安 吴彦祖 ,datetime.datetime(2018,11,29,0,48)] 


现在 数据 基本 上 没有 问题 了 ， 我 们 可 以 尝试 将 数据 加 入 MongoDB 中 。 但 是 这 次 加 入 MongoDB 的 方法 和 之 前 有 些 不 一 样 。 因 为 这 次 我 们 获取 的 是 论坛 数据 ， 在 虎 扑 论坛 中 ， 用 户 讨论 得 非常 热烈 ， 在 
翻 到 第 二 页 的 时 候 ， 可 能 新 回复 的 帖子 已 经 将 原来 第 一 页 的 帖子 推 到 第 二 页 ， 如 果 还 用 insert_one 方 法 ， 那 么 同一 个 帖子 可 能 会 在 数据 库 中 出 现 两 次 记录 ， 因 此 需要 改 用 update 方 法 。 


这 里 ， 笔 者 写 了 一 个 使 用 MongoDB 的 类 ， 可 以 很 方便 地 连接 数据 库 、 提 取 数 据 库 中 的 内 容 、 向 数据 库 中 加 入 数据 以 及 更 新 数据 库 中 的 数据 。 其 代码 如 下 : 


from pymongo import MongoClient 


class MongoAPI (object) : 
def init (self, db ip, db port, db name, table name): 


self.do ip = db ip 
self.db port = db port 
self.db name = db name 
self.table name = table name 
self.conn = MongoClient (host-self.db ip, port-self.db port) 
self.db = self.conn[self.db name] 
self.table = self.db[self.table name] 
def get one(self, query): 
return self.table.find one(query, projection-(" id": False}) 
def get all(self, query): | 7 
return self.table. find (query) 
def add(self, kv dict): 
return self.table.insert(kv dict) 
def delete(self, query): 
return self.table.delete many (query) 
def check exist(self, query): 
ret = self.table.find one (query) 
return ret != None 


# 如 果 没 有 会 新 建 

def update(self, query, kv dict): 

self.table.update one (query, ( 
'$set': kv dict 

), upsert-True) 


这 个 MongoAPI 类 可 以 实现 很 多 功能 ， 包 括 连 接 数 据 库 的 一 个 集合 、 使 用 get_one(selfquery) 获 取 数 据 库 中 的 一 条 资料 、 使 用 get_all(self'query) 获 取 数 据 库 满足 条 件 的 所 有 数据 、 使 用 
add(selfkv_dict) 向 集合 中 添加 数据 、 使 用 delete(selfquery) 删 除 集合 中 的 数据 。 还 可 以 使 用 check_exist(self,query) 查 看 集合 中 是 否 包 含 满足 条 件 的 数据 ， 如 果 找 到 满足 条 件 的 数据 ， 融 返回 True; WERK 
不 到 满足 条 件 的 数据 ， 就 返回 False。 同 时 ， 可 以 使 用 update(self'query,kv _dict) 更 新 集合 中 的 数据 ， 如 果 在 集合 中 找 不 到 数据 ， 惑 会 新 增 一 条 数据 。 


输入 以 上 代码 后 ， 便 可 以 将 之 前 礁 取 的 数据 加 入 数据 库 中 了 ， 代 码 如 下 : 


hupu post = MongoAPI("localhost", 27017,  "hupu", "post") 
for each in data list: 
hupu post.add(("title": each[0], 
"post link": each[1], 
"author": each[2], 
"author page": each[3], 
"start date": str(each[4]), 
"reply": each[5], 
"view": each[6], 
"last reply": each[7], 
"last reply time": str(each[8])]) 


在 上 述 代 码 中 ， 首 先 使 用 : 


hupu post = MongoAPI("localhost", 27017, “hupu", "post") 


连接 了 数据 库 hupu 中 的 post 集 合 。 和 之 前 的 代码 不 同 的 是 ， 在 上 述 代码 的 最 后 加 上 了 hupu_post.add({"title":each[0],"post_link":each[1],.…})， 将 数据 加 入 了 刚刚 创建 的 数据 库 集合 中 。 


运行 上 述 代码 ， 可 以 在 RoboMongo 中 查看 结果 ， 如 图 6-39 所 示 。 


Key Value 


v E (1) Objectld("5bffbc26fadf3768142d0559") ( 10 fields } 
EJ id Objectld("5bffbc26fadf3768142d0559") 
" title EN 步行 街 主干 道 版 规 ( 严禁 人 肉 。 时 政 敏感 帖 ， 禁 发 募捐 帖 ，，… 
| post link https://bbs.hupu.com/15806550.html 
' author gt EHEA 
" author page https://my.hupu.com/272380999276581 
" start date 2017-01-18 
" reply 1 
whew 3228499 
" last reply 庶 扑 团队 
| last reply time 2017-02-27 
L3 (2) Objectld(" 5bffbc26fadf3768142d055a") ( 10 fields ) 
§ (3) Objectld( 5bffbc26fadf3768142d055b") { 10 fields } 
Jj (4) Objectid(" 5bffbc26fadf3768142d055c") { 10 fields } 
| (5) Objectid(" 5bffbc26fadf3768142d055d") ( 10 fields ) 
(6) Objectid(" 5bHbc26fadi3768142d055e") ( 10 fields } 
8 (7) Objectld("5bffbc26fadi3768142d055f") { 10 fields } 
| (8) Objectid(" 5bffbc26fadf3768142d0560") ( 10 fields } 
(9) Objectid(" 5bffbc26fadf3768142d0561") ( 10 fields ) 
i3: (10) Objectid( 5bffbc26fadf3768142d0562") { 10 fields } 


图 6-39 ”在 RoboMongo 中 查看 结果 


这 样 我 们 便 将 第 1 页 的 结果 加 入 MongoDB 中 了 。 接 下 来 ， 需 要 把 第 1 页 到 第 100 页 的 数据 都 怜 取 下 来 ， 记 住 要 在 爬 取 之 间 间 隔 几 秒 ， 做 一 个 遵守 规则 的 爬虫 。 


import requests 
from bs4 import BeautifulSoup 
import datetime 

from pymongo import MongoClient 
import time 


hupu post = MongoAPI("localhost", 27017, "hupu", "post") 
for i in range(1,100): 

link = "https://bbs.hupu.com/bxj-" + str(i) 

soup = get page (link) 


post all- soup.find('ul', class -"for-list") 
post list = post all.find all('1i') 
data list = get data(post list) 


for each in data list: 
hupu post.update(("post link": each[1]),("title": each[0], 
"post link": each[1], 
"author": each[2], 
"author page": each[3], 
"start date": str(each[4]), 
"reply": each[5], 
"view": each[6], 
"last reply": each[7], 
"last reply time": str(each[8])]) 


time.sleep (3) f 
print ('S', i ,'HIRRER REGE) 


在 上 述 代码 中 ， 我 们 首先 加 入 了 一 个 循环 来 获取 第 1 页 到 第 100 页 的 数据 。 值 得 注意 的 是 ， 在 将 数据 输入 MongoDB 的 时 候 ， 不 再 使 有 add， 而 是 使 用 hupu_post.update， 当 发 现 数据 库 中 已 经 有 该 帖子 
的 链接 时 ， 更 新 数据 ; 如 果 没有 该 帖子 的 链接 ， 就 会 新 增 一 条 记录 。 正 如 前 面 所 言 ， 因 为 在 抓 取 后 面 页 数 的 数据 时 ， 由 于 时 间 差 的 关系 ， 前 一 页 的 帖子 可 能 会 转 到 后 一 页 去 ， 因 此 需要 用 update 解 决 这 个 问 


运行 上 述 代码 ， 发 现在 MongoDB 中 有 11900 条 数据 ， 当 然 你 们 获取 的 数据 量 可 能 和 这 个 不 一 样 ， 因 为 时 间 差 的 天 系 ， 不 同 数量 的 帖子 可 能 会 被 沉 到 下 一 页 ， 如 图 6-40 所 示 。 


QD 0.003 sec. 


mem 


Key 
> (£3 (20) Objectid("593813cc7224ed53b96d456e") 
> &3 (21) Objectid(*593813cc7224ed53b96d4570") 


EE (22) Objectid(  593813cc7224ed53b96d4572") 


i (23) Objectid( 593813cc7224ed53b96d4574") 
3| (24) Objectid( 593813cc7224ed53b96d4576") 
(25) Objectid( 593813cc7224ed53b96d4578") 
(26) Objectid( 593813cc7224ed53b96d457a") 
(27) Objectid(* 593813cc7224ed53b96d457c") 


> &3 (28) Objectid( 593813cc7224ed53b96d457e") 


b Ey (29) Objectid(  593813cc7224ed53b96d4580") 


p Ey (30) Objectid( 593813cc7224ed53b96d4582") 
> Ey (31) Objectid( 593813cc7224ed53b96d4584") 
> Ea (32) Objectid( 593813cc7224ed53b96d4586") 
> EX (33) Objectid( 593813cc7224ed53b96d4588") 
>» EX (34) Objectid( 593813cc7224ed53b96d458a") 
b &3 (35) Objectid( 593813cc7224ed53b96d458c") 
b EY (36) Objectid( 593813cc7224ed53b96d458e") 
> EX (37) Objectid( 593813cc7224ed53b96d4590") 


> £8 (38) Objectid( 593813cc7224ed53b96d4592") 


> EX (39) Objectid( 593813cc7224ed53b96d4595") 
p &3 (40) Objectid("* 593813cc7224ed53b96d4597") 
» E (41) Objectid(" 593813cc7224ed53b96d4599") 
b &3 (42) Objectid( 593813cc7224ed53b96d459b") 


> EY (43) Objectid( 593813cd7224ed53b96d459d") 


» £3 (44) Objectid(593813cd7224ed53b96d459f") 


Value 


[ 10 fields ) 
( 10 fields ) 
( 10 fields ) 
( 10 fields ) 
[ 10 fields ) 
{ 10 fields } 
[ 10 fields } 
{ 10 fields } 
{ 10 fields ) 
{ 10 fields } 
{ 10 fields ) 
[10 fields ) 
[ 10 fields } 
{ 10 fields ) 
( 10 fields ) 
( 10 fields ) 
( 10 fields ) 
[ 10 fields ) 
[ 10 fields } 
[ 10 fields ) 
{ 10 fields } 
( 10 fields ) 
( 10 fields ) 
{ 10 fields ) 
{ 10 fields } 


4 11900 50 > BA B a 


6.5.3 ”自我 实践 题 


图 6-40 


运行 的 结果 


在 本 章 的 实践 中 ， 我 们 使 用 MongoDB 存 储 了 数据 。 有 兴趣 的 读者 可 以 尝试 使 用 MySQL 作 为 数据 库存 储 数据 ， 并 使 用 MySQL 中 的 update 进 行 数据 的 更 新 。 


前 面 几 章 介绍 了 使 用 requests 加 BeatifulSoup 工 具 来 获取 网 页 、 解 析 网 页 、 存 储 数据 ， 上 手 比 较 简单 ， 但 是 每 个 功能 的 代码 都 要 自己 实现 。 


进 框架 里 。 使 用 较 少 的 代码 就 能 完成 朴 下 的 工作 。 


本 章 首先 介绍 Sctapy 和 Reqduests 的 对 比 ， 然 后 介绍 如 何 安装 Sctapy， 如 何 使 用 Sctapy 进 行 抓 取 ，Sctapy 的 注意 事项 ， 最 后 通过 Sctrapy 爬 夹 实践 来 实现 真正 上 手 。 


7.1 


Scrapy 是 一 个 为 了 肛 取 网 站 数据 ， 提 取 数 据 而 编写 的 应 用 框架 。 简 单 来 说 ， 它 把 他 虫 的 三 步 : 获取 网 页 ， 解 析 网 页 ， 存 储 数据 都 整合 成 了 这 个 他 虫 框 架 。 


多 。 


7.1.1 


Scrapy 是 什么 


Scrapy 架 构 


第 7 章 


下 面 的 图 7-1 展 示 了 Scrapy 的 架构 ， 包 括 了 各 个 组 件 ， 以 及 数据 流 的 情况 (箭头 所 示 ) 。 


Scrapy 框 架 


本 章 介绍 的 Scrapy 是 一 个 爬虫 框架 ， 它 将 上 述 的 很 多 功能 都 封装 


通过 Scrapy 实 现 一 个 疏 虫 


zZn4B 
Seu 


简单 了 很 


Requests 


PPD Downloader 


Downloader 
Middlewares 


' Spider 
| Middlewares / Responses 


Items 


Spiders 


图 7-1 Scrapy 3874) 


Scrapy 主 要 的 组 件 有 Scrapy Engine (引擎 ) , Scheduler (调度 器 ) , Downloader (下 载 器 ) , Spider (EE) , Item Pipeline (管道 ) 。 还 有 两 个 中 间 件 : Downloader Middlewares (FÈ 
器 中 间 件 ) 和 Spider Middlewares (爬虫 器 中 间 件 ) 。 这 些 组 件 的 功能 分 别 是 


EIE m) CET ALLE PLA ZR T A3), FETE NARA. TARAR AREY XA. 
. 调度 器 : 从 引擎 接受 请 求 (request). HAH EMAAR AF. VARICES PR HEA 9 HAE 
. 下 载 器 : 负责 获取 页 面 并 提供 给 引擎 。 相 当 于 之 前 学 的 “获取 网 页 ”功能 。 


“JER m: 负责 解析 网 页 (response) ， 提 取 数 据 ， 或 额外 跟 进 一 些 URL。 相 当 于 之 前 学 的 “解析 网 页 ”功能 。 


中 


i: 负责 处 理 被 朴 虫 器 提取 的 数据 (items) ， 例 如 保存 下 来 。 相 当 于 之 前 学 的 “存储 数据 ”功能 。 

FREY AA: 引擎 和 下 载 器 中 间 的 一 个 部 分 ， 处 理 下 载 器 传递 给 引擎 的 数据 (response) ， 一 般 不 做 处 理 。 

ek BP A: 引 营 和 怜 虫 器 中 间 的 一 个 部 分 ， 处 理 爬 虫 器 的 输入 (response) 和 输出 (items,requests) o 

作为 一 个 框架 ， 上 面 列 出 来 的 各 种 组 件 还 是 很 复杂 ， 一 不 小 心 就 处 于 懂 冯 状 态 。 下 面 的 表格 就 用 大 家 较为 熟悉 的 代 虫 三 大 流程 去 理解 ， 应 该 会 更 加 清楚 


表 7-1 Scrapy 各 个 组 件 


组 件 TM 三 大 流程 Scrapy 项 目 是 否 需 要 修改 
引擎 | | 无 需 修 改 , 框 架 已 号 好 
调度 器 | ET, HR 
E —— LE (requests 库 ) 无 需 修 改 ， 框 架 已 写 好 


Mee | RATE (BeautifulSoup 库 ) | 和 需要 Z OOOO O O 
获取 网 页 - 个 性 化 部 分 
解析 网 页 - 个 性 化 部 分 


从 上 表 可 以 看 出 ， 在 Scrapy 框 架 下 需要 写 的 代码 变 得 简单 了 很 多 ， 一 般 而 言 ， 我 们 只 需要 负责 好 拒 虫 器 和 管道 就 可 以 了 。 


7.1.2 Scrapy 数 据 流 (Data Flow) 


图 7-1 的 绿色 箭头 表示 了 Scrapy 的 数据 流 ， 数 据 流 由 引擎 控制 。 那 么 数据 在 Scrapy 下 是 怎么 流动 的 呢 ? 下 面 以 人 www.santostang.com 获 取 博 客 标题 为 例 : 
(1) S|: 向 爬虫 器 请 求 第 一 个 要 抓 取 的 url。 

(2) EE: 提供 www.santostang.com 给 引擎 。 

(3) 引擎 : 接收 到 网 址 ， 交 给 调度 器 排序 入 队 。 

(4) 调度 器 : 将 它 处 理 成 请 求 (request) 给 引擎 。 

(5) 引擎 : 接收 到 request， 并 通过 下 载 器 中 间 件 给 下 载 器 下 载 。 

(6) 下 载 器 : 根据 request 下 载 页 面 ， 返 回回 应 (response) 给 引擎 。 

(7) 引擎 : 接收 到 response， 并 通过 爬虫 器 中 间 件 给 聆 虫 器 处 理 。 

(8) ERZ: 处 理 response， 提 取 博 客 标 题 数 据 ， 返 回 结果 item 给 引擎， 如 果 有 跟 进 的 请 求 request 也 会 给 引擎 。 
(9) 引擎 : 接收 到 item， 交 给 管道 ， 新 的 request 给 调度 器 。 

(10) 管道 : 存储 数据 。 


如 果 有 新 的 request 给 调度 器 ， 那 么 从 第 2 步 开 始 重 复 直 到 调度 器 没有 request，3 引 警 就 会 天 闭 本 次 爬虫 。 


7.4.3 ”选择 Scrapy 还 是 Requests+bs4 


如 果 你 刚 开 始 学 习 爬 虫 ， 在 纠结 先 学 习 Scrapy 的 框架 还 是 用 Requests+ bs4 自 己 写 礁 虫 的 话 ， 我 的 建议 是 一 开始 不 要 用 框架 ， 先 老 老实 实地 用 Requests+ bs4。 如 果 一 开始 用 框架 的 话 会 有 以 下 几 个 问 


第 一 ，Scrapy 的 多 个 模块 会 让 初学 者 发 异 ， 导 致 上 手 学 习 爬 虫 比较 慢 。 即 使 你 是 熟悉 爬虫 的 老手 ， 也 要 伦 一 段 时 间 才 能 理解 3Scrapy 如 何 使 用 。 相 比 之 下 ，Requests+ bs4 比 较 容 易 上 手 ， 例 如 第 2 章 的 你 
的 第 一 个 聆 虫 。 这 也 是 笔者 为 何在 讲 完 爬虫 三 大 流程 之 后 才 进 Scrapy。 


第 二 ， 初 学 者 老 老实 实地 用 Requests 爬 取 网 页 ， 用 selenium 获 取 动 态 网 页 ， 用 bs4 解 析 网 页 ， 用 csv 存 储 网 页 ;从 零 开 始 做 一 个 聆 虫 项 目 ， 自 己 设计 抓 取 策略 会 让 你 对 爬虫 有 非常 深入 地 认识 。 


不 使 用 框架 写 爬 虫 就 像 是 在 从 基础 开始 建 一 座 房子 ， 你 需要 自己 设计 框架 并 且 自 己 装修 ， 但 这 也 是 你 成 长 最 快 的 方式 之 一 。 相 比 之 下 ， 使 用 scrapy 框 架 就 像 是 在 一 个 已 经 有 框架 的 房子 内 建立 了 很 多 个 
功能 房 ， 你 需要 什么 就 直接 去 相应 的 房间 装修 即 可 。 


有 拒 虫 者 往往 会 经 历 一 个 不 用 框架 ， 到 使 用 框架 ， 再 到 不 用 框架 的 过 程 。 初 学 者 最 开始 只 需要 一 个 简单 的 小 房子 ， 所 以 使 用 Requests 和 bs4 很 方便 。 在 学 会 使 用 Requests 和 bs4 后 ， 表 使 用 Scrapy 框 架 ， 
你 会 发 现 一 个 新 大 陆 ， 原 来 几 行 代码 就 可 以 完成 怜 虫 ， 发 现 Scrapy 很 好 用 。 但 是 渐渐 地 ， 你 需要 一 些 定制 化 地 功能 ，Scrapy 的 条 条 框框 并 不 能 满足 的 需求 ， 所 以 你 可 能 还 是 会 回 到 最 开始 的 方法 ， 但 是 此 时 
你 已 经 可 以 自己 建 一 座 华 丽 的 大 房子 了 。 


scrapy 优 势 在 于 并 发 性 好 ， 在 做 大 批量 数据 爬虫 时 简单 易 用 。 此 外 ， 做 长 期 的 礁 虫 项 目 维护 管理 也 比较 容易 ， 相 比 之 下 ， 不 用 框架 的 聆 虫 定制 化 比较 高 ， 经 过 训练 的 高 手 能 够 使 用 十 八 般 武 艺 杀 敌 人 于 
无 形 。 但 是 数据 采集 中 棘手 的 问题 还 是 解决 反 有 聆 虫 ， 而 scrapy 框 架 得 太 死 了 ， 不 够 灵活 ， 在 逐步 进化 的 瓜 虫 面前 跟 不 上 脚步 。 虽 然 Scrapy 也 可 以 使 用 中 间 件 ， 但 是 比 起 不 用 框架 的 各 种 扩展 功能 ，Scrapy 
还 是 功能 不 够 强大 。 


7.2 ”安装 Scrapy 


scrapy 现 在 也 支持 Python3 了 ， 在 Windows 下 的 安装 很 简单 ， 可 以 直接 在 cmd 使 用 pip 安 装 : 


pip install Scrapy 


但 是 根据 Scrapy 的 文档 ， 在 Windows 下 使 用 pip 安 装 会 容易 出 现 错误 ， 所 以 推荐 你 使 用 Anaconda 安 装 。 当 你 装 好 Anaconda 之 后 ， 就 可 以 在 cmd 输 入 : 


conda install -c conda-forge scrapy 


至 于 Mac 和 Linux 系 统 可 以 参照 Scrapy 文 档 进行 安装 。 


7.3 ”通过 Scrapy 抓 取 博 客 


接 下 来 ， 使 用 scrapy 抓 取 博 客 www.santostang.com 作 为 入 门 案例 来 讲述 Scrapy。 本 教程 将 完成 以 下 几 个 任务 : 
: 创建 一 个 Scrapy 项 目 

“ 获取 博客 网 页 并 保存 

' 解析 网 页 ， 提 取 博 客 标 题 和 链接 数据 


+ 存储 博客 标题 和 链接 数据 


` 获取 文章 内 容 


7.3.1 创建 一 个 Scrapy 项 目 


在 开始 聆 取 之 前 ， 必 须 创建 一 个 新 的 Scrapy 项 目 。 首 先 ， 在 cmd 中 进入 一 个 自 定 义 目录 ， 例 如 桌面 。 运 行 下 面 命令 ， 记 得 将 用 户 名 改 成 你 的 名 字 。 


cd C:\Users\santostang\desktop 


scrapy startproject blogSpider 


那么 ，blogSpider 就 是 项 目 名 称 ， 可 以 看 到 桌面 创建 了 一 个 blogSpider 的 文件 夹 ， 目 录 的 结构 为 : 


blogSpider/ 
scrapy.cfg 
blogSpider/ 
init .py 
items.py # 定义 需要 保存 的 字段 
pipelines.py # 对 应 管道 组 件 ， 用 来 存储 数据 
settings.py # 项 目的 设置 文件 
spiders/ # WV, FRAT, SERA He 
init .py 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/18359/OEBPS/Text/... 


在 开始 肥 虫 之 前 ， 我 们 需要 定义 他 虫 的 目标 字段 。 例 如 ， 我 们 需要 获取 www.santostang.com 中 所 有 文章 的 标题 、 链 接 以 及 文章 内 容 。 那 么 ， 打 开 items.py， 人 在 Blogspiderltem 类 下 输入 需要 的 字段 : 


import scrapy 

class BlogspiderIltem(scrapy.Item): 
title = scrapy.Field() 
link = scrapy.Field() 
content = scrapy.Field() 


这 里 的 scrapy.item 类 ， 类 型 为 scrapy.Field 的 类 属性 来 定义 一 个 tem。ltem 有 点 像 Python 里 的 dict 字 典 ， 但 是 Item 提供 了 额外 保护 机 制 来 避免 拼写 错误 导致 的 未 定义 字段 错误 。 如 果 这 里 比较 复杂 ， 没 
有 关系 ， 你 只 需 将 所 有 要 获取 的 字段 按照 上 面 的 方式 定义 就 可 以 了 。 


73.2 ”获取 博客 网 页 并 保存 


接 下 来 ， 在 cmd 的 当前 目录 输入 以 下 命令 : 


scrapy genspider santostang www.santostang.com 


f£blogSpider/spider&/Ji& 7 —""santostang.pyBg Xi, EX f $47J3santostangBSE&rR, Fle r ÉBXBJIGESIZJwww.santostang.com, 


打开 santostang.py 文 件 ， 可 以 看 到 默认 的 代码 如 下 : 


import scrapy 


class SantostangSpider (scrapy.Spider): 
name — "santostang" 
allowed domains — ['www.santostang.com'] 
start urls = ['http://www.santostang.com/'] 


def parse(self, response): 
pass 


除了 在 cmd 中 创建 之 外 ， 我 们 还 可 以 自己 创建 santostang.py 文 件 ， 并 加 入 以 上 代码 ， 不 过 使 用 命令 会 比较 简单 。 
那么 这 就 是 怜 虫 器 Spider， 用 来 编写 从 网 站 提取 数据 。 创 建 怜 虫 器 必须 继承 scrapy.spider 类 ， 并 如 下 定义 : 

: name: RR BEM ZF, KARR BRA 28 FF 

- allow_domains=[]: 242% RA EA, IER RARAN TAR. 

- start. urls: E k RER AMS RR Kuk. 

. parse): fe R RAD, HRS) [ek 9 FA Mhresponse, ZEA UR 


接 下 来 ， 我 们 修改 parse() 获 取 博 客 网 页 并 保存 在 本 地 。 


def parse(self, response): 
print (response.text) 

filename = "index.html" 

with open(filename, 'w', encoding-"utf-8") as f: 

f .write (response.text) 


然后 在 cmd 里 的 blogSpider 目 录 下 执行 : 
scrapy crawl santostang 


上 述 代 码 中 的 santostang 就 是 本 项 目 之 前 定义 的 名 字 。 运 行 完成 后 ， 如 果 打 印 的 日 志 里 出 现 [scrapy.core.engine]INFO:Closing spider(finished)， 那 么 代表 了 执行 完成 。 进 入 文件 夹 ， 可 以 看 到 当前 文 
件 夹 出 现 了 index.html 文 件 ， 那 么 这 就 是 刚刚 有 息 取 页 面 的 源 代码 。 


7.3.8 ”提取 博客 标题 和 链接 数据 


在 获取 网 页 后 ， 我 们 就 需要 从 中 提取 数据 了 。 虽 然 Scrapy 已 经 自 带 了 Xpath 和 (Css 选择 器 ， 但 是 为 了 方便 ， 我 们 还 是 使 用 习惯 的 BeautifulSsoup 来 获取 数据 。 


修改 santostang.py 文 件 代 码 为 : 


import scrapy 
from bs4 import BeautifulSoup 


class SantostangSpider (scrapy.Spider): 


name = 'santostang' 
allowed domains = ['www.santostang.com'] 
start urls = ['http://www.santostang.com/'] 


def parse(self, response): 


soup = BeautifulSoup (response.text, 


for i in range (len (ti qup 


print ('% %s WC HUE $s' 


运行 上 述 代码 ， 可 以 看 到 输出 的 结果 如 图 7-2 所 示 。 


"lxml") 
first title = soup.find("hi", class = "post-title").a.text.strip() 
print ("第 一 篇 文章 的 标题 是 : ", first title) 


title = title list[i].a.text. Ber pu 


%(i+1, title)) 


据 。 


这 里 就 把 标题 数据 提取 出 来 了 。 如 果 文 章 有 更 新 ， 可 能 标题 


会 有 不 同 的 结果 。 


图 7-2 ”提取 博客 标题 结果 


如 果 我 们 希望 能 用 上 Scrapy 对 于 item 的 处 理 方式 ， 我 们 可 以 用 之 前 定义 的 Blogspiderltem 类 ， 这 里 可 以 将 这 些 提取 到 的 数据 封装 到 这 个 对 象 中 。 代 码 如 下 : 


import scrapy 
from bs4 import BeautifulSoup 
from blogSpider.items import BlogspiderI 


class SantegcongHelde E edd Ve DES s 
name — 'santostang' 


allowed domains = ['www.santostang.com' ] 


tem 


start urls = ['http://www.santostang.com/'] 


def parse(self, response): 
# 存 放 文章 信息 LEN Ze 


items = [] 


soup = BeautifulSoup (response.text, 


for i in range (len (title list) ) 


# Wende H3 BIB logspideritent g, 字典 类 型 数据 


item = BlogspiderItem() 


ud lxml ud ) 


title = title list[i].a.text.strip() 


link = title list[i].a["href"] 
# 变 成 字典 
item["title"] = title 
item["link"] = link 
items.append (item) 
# 返回 数据 


return items 


在 上 述 代码 中 ， 我 们 首先 使 用 from blogSpider.items import Blogspiderltem 引 入 这 个 Blogspiderltem 类 


title list = soup.find all("hl", class ="post-title") 


然后 写 入 这 个 字典 数据 中 ， 最 后 使 用 items.append(item) 加 入 到 存放 文章 信息 的 列表 ， 并 返回 这 个 列表 。 


这 里 还 在 提取 数据 阶段 ， 所 以 不 会 用 到 管道 


如 果 输 出 的 是 json 格 式 ， 可 以 写成 : 


scrapy crawl santostang -o article.json 


。 但 是 ， 如 果 要 简单 地 保存 数据 ， 我 们 可 以 在 cmd 中 写 代码 输出 指 


在 cmd 运 行 代码 得 到 的 结果 是 一 个 json 文 件 ， 如 图 7-3 所 示 。 


"title" 
CALAM : 
ss oe od | pee 
"title" 


"title": "Hello world!", 


如 果 输 出 的 是 csv 格 式 ， 可 以 写成 : 


scrapy crawl santostang -o article.csv 


selenium 


"link" 


定格 式 的 文件 。 


Li 
2 


"link" 


( 


。 接 下 来 ， 定义 item=Blogspiderltem() 将 数据 封装 到 Blogspiderltem 对 象 ， 这 是 字典 类 型 数 


' link": "http://www.santosta 
“http://www. NE: com/2018/0// 


"http: //www.santostang.com/2018/07/04/hello-world/"] 


图 7-3 ”存储 为 json 文 件 


在 cmd 运 行 代码 得 到 的 结果 是 一 个 csv 文 件 ， 如 图 7-4 所 示 。 


content,link,title 


http: //www.santostang.com/2018/07/7/15/4-3-*e92380x9axe8^bf*8 /selenium-*e65a8*al*&e6*58b29f2e6xb5X8f/5e875a /758982e539975a8/5e67$8 AAI 32e5/$8 T7596 / , 4 


http: //www.santostang.com/2018/07/14/4-2 -Xe8Xa7Xa395e69:9e9:9095e 72:9 C69 f Ke 52:ae 99 e95e 5269 c?cb0 96e 5259426802566 62683269 32565258 £296 / ,4.2 AH 析 真实 地 址 抓 取 


„http://www .santostang.com/2018/07/14/%e7%ac%ac%e5%9b%9b%e7%ab%a0%ef%bc%9a%e5%8a%a8%e6%80%81%e7%bd%91%e9%a1l%b5%e6%8a%93%e5%8f%96-%e8%a 
enium/ mE- 动态 网 页 抓 取 (解析 真实 地 址 + selenium) 


http://wwuw.santostang.com/2018/07/11/%Xe3%80%8a%e7%bd%91%Xe7%bb%9c%e 7 X88 Rac%ed%I9N%abXefXbc%I9a%ed4%bb%BeXe%8%a Xen%9 726a 85e 5258825b076e 526a eq 
frat /, (ABNER : 从 入 门 到 实践 ) 一 书 勘 误 


,http: //www.santostang.com/2018/07/04/hello-world/,Hello world! 


图 7-4 存储 为 csv 文 件 


7.3.4. 存储 博客 标题 和 链接 数据 


刚刚 我 们 主要 是 获取 数据 ， 并 且 在 命令 行 中 人 存储 了 数据 。 不 过 ， 一 般 存 储 数 据 都 会 用 到 管道 pipelines 功 能 。 打 开 pPipelines.py， 修 改 代码 如 下 : 


cla 


gs Pu ur eere 


EI 
file path = "C:/Users/santostang/Desktop/blogSpider/result.txt" 


def init (self): 
self.article = open(self.file path 


# 定 义 管 道 的 处 理 方法 
def process _ item(self, item, spider): 
title = item["title"] 
link = item["link"] 
output = title + 'Nt' + link + '\n' 
self.article.write (output) 


, "at", encoding="utf-8") 


在 上 述 代 码 中 ， 首 先 定 义 你 的 file_path， 然 后 在 类 中 定义 process item(self,item,spiden 方 法 ， 这 里 会 传 入 获取 的 item 对 象 和 疏 取 该 item 的 spider。 所 以 在 里 面 获取 到 数据 title 和 linkK， 之 后 再 写 入 txt 
文件 中 。 


此 外 ， 你 还 需要 修改 设置 ， 也 就 是 settings.py 文 件 。 去 掉 下 面 这 一 段 的 注释 ， 在 笔者 的 版 本 中 是 第 67 到 69 行 代码 。 


TEM PIPELINES = { 
'blogSpider.pipelines.BlogspiderPipeline': 300, 


之 后 ， 在 命令 行 中 运行 如 下 代码 : 


Scrapy crawl santostang 


运行 完成 后 ， 可 以 看 到 blogSpider 文 件 夹 中 出 现 了 result.txt 文 件 ， 内 容 如 图 7-5 所 示 。 


3| result.txt - 记事 本 


文件 (F) SE) 格式 (O) BBW) 帮助 (H) 
3] iso leni um 


ME AWA EREN http://www. santostang. com/2018/07/15/4-3-%e9 


^ 


p /www. santostang. com/2018/07/14/4-2-*e8*a7*a3*e 
ES RE HAS EY 


ss + selenium) http://www. santostang. com/ 20 


http://www. santostang. com/2018/07/11 
oe ee A n ect —world/ 


Cb NES 


ello world! 


图 7-5 ”存储 标题 和 链接 


7.3.5 ”获取 文章 内 容 


在 获取 到 文章 标题 和 链接 之 后 ， 我 们 还 需要 进入 该 链接 的 页 面 来 获取 文章 的 内 容 。 如 果 不 使 用 Scrapy 框 架 ， 而 使 用 requests 的 话 ， 我 们 需要 将 标题 和 链接 都 存储 下 来 ， 再 读 取 链 接 去 抓 取 文章 内 容 ; 或 
者 自己 写 代码 在 每 次 获取 链接 之 后 ， 就 去 抓 取 文章 内 容 。 


这 两 种 方法 都 仓 在 头 端 : 第 一 种 方法 要 保存 下 来 分 开 获取 ， 非 常 及 烦 ; 第 二 种 方法 会 使 用 串 行 ， 也 就 是 说 先 获取 第 一 篇 文章 的 标题 和 链接 ， 再 获取 第 一 篇 文章 的 内 容 ， 才 会 去 获取 第 二 篇 文章 的 标题 和 
链接 ， 速 度 很 慢 。 那 么 ， 能 不 能 获取 第 一 篇 文章 内 容 的 时 候 ， 就 去 获取 第 二 篇 文章 的 标题 呢 ? 


scrapy 内 置 的 并 行 能 力 就 能 解决 这 个 问题 


打开 santostang.py 文 件 ， 修 改 代码 为 : 


import scrapy 
from bs4 import BeautifulSoup 
from blogSpider.items import BlogspiderItem 


class nankor tan prier (eelapy Spider) 
name = 'santostang' 
allowed domains = ['www.santostang.com'] 
start urls = ['http://www.santostang.com/'] 


def parse(self, response): 
soup = BeautifulSoup (response.text, Eos 
title list - a find all(' M class -"post-title") 
for i in rang n(title lis 
} XR EI Bp ogapi dort tet R, 字典 类 型 数据 


item = BlogspiderItem() 


title = title list[i].a.text.strip() 

link = title list[i].a["href"] 

+ EE 

item[" dn ] = title 

item[' "link" = link 

# GES ALE, 发 送 Request 请 求 ， 并 传递 jtem 参 数 

yield scrapy.Request(url -link, meta = {'item':item}, callback = self.parse2) 


def parse2(self, response): 
# 接 收 传递 的 item 
item = response. meta['item'] 
# 解 析 提 取 文章 内 容 
soup = BeautifulSoup(response.text, "lxml") 
content = soup.find("div", class ="view-content") .text.strip () 
content = content. replace ("\n", uS 
item["content"] = content 
# 返 回 item， 交 给 ijtem pipeline 
yield item 


上 述 代 码 和 之 前 不 同 的 之 处 有 两 点 : 一 是 加 入 了 yield， 二 是 加 入 了 函数 parse2。 然 而 ，Scrapy 的 并 行 获取 能 力 就 是 通过 yield 实 现 的 。 通 过 yield 来 发 起 一 个 请 求 ， 定 义 url 是 文章 链接 ， 使 用 meta 传 递 
item 参 数 ， 并 通过 callback 参 数 为 这 个 请 求 添加 回调 函数 ， 这 里 是 self.parse2。 


parse2 用 来 处 理 抓 取 文章 链接 的 response。 首 先 ， 使 用 item=response.meta['item"] 接 受到 传递 的 item ， 然 后 解析 提取 文章 的 内 容 ， 使 用 yield item 返 回 item， 交 给 item pipeline 做 进一步 处 理 。 


因此 ，pipeline.py 也 要 保存 文章 的 内 容 。 打 开 pipeline.py 文 件 ， 修 改 代 码 为 : 


cl BlogspiderPipeline (object) : 
HI 的 地 址 
file path = "C:/Users/santostang/Desktop/blogSpider/result.txt" 


def init (self): 


self.article = open(self.file path, "at", encoding-"utf-8") 


# 定 义 管道 的 处 理 方法 
def process _ item(self, item, spider): 

title = item["title"] 

link = item["link"] 

content = item["content"] 

output = title + 'Nt' + link + 'Nt' + content + '\n\n' 

self.article.write (output) 

return item 


上 述 代码 中 ， 我 们 新 增 了 content=item["content"] 来 保存 文章 内 容 ， 并 写 入 最 后 的 output 字 符 串 中 。 


之 后 ， 删 除 result.txt 文 件 。 在 命令 行 中 运行 如 下 代码 : 


scrapy crawl santostang 
运行 完成 后 ， 可 以 看 到 blogSpider 文 件 夹 中 出 现 了 result.txt 文 件 ， 内 容 如 图 7-6 所 示 。 


司 result.txt - 记事 本 


文件 (F) mE) EAO SEV) BWCH) 
ello world! http://www. santostang. com/2018/07/04/hello-world/ Welcome to WordPress. This is your first post. Edit or delete it, 


4.2 解析 真实 地 址 抓 取 http://www. santostang. com/2018/07/14/4-2- E ee eser: 
EWREEREETR. niinc 1531502963311&1im t= lO&repse eq-4272 d&requestbath- "id t 1020&1ivereSeq- 2 
FIXE 页 面 ， 如 果 我 们 还 是 用 人 工 一 页 页 地 翻 页 ， HRS CRURA. 就 十 分 费力 了 。 因 此 ， 下 面 将 介绍 网 页 URL 地 二 TERI tor fale 


paders) json HJ string json string = r. text json string = json stringljson string. find( f ):-2 rug data = json.1 


第 四 章 - RS 抓 取 T Oei d * selenium) htt ERA www. spin: Comy20187077147%e7%ac%ac%e5%9b%o9b%e7%ab%a0%ef%bc%9a%e5%8a%ag%e6%80% 


aScript 后 呈现 出 来 的 数据 就 是 通过 JavaScript 提 取 数 据 加 载 到 源 代 人 码 进 行 呈现 的 。 除了 我 的 博客 ， 我 们 还 可 以 在 天 猫 电 商 上 找到 ATJAX 技 术 的 例 


4. 3 通过 selenium 模拟 浏览 器 抓 取 PUE dua "Um con/2018/07/15/4- hgh ei ep en pe 
EPI EM, ESLER essag iver' executable needs to be TE enium 之 前 的 版 本 Rete ick 
到 元 素 位 E D Wigs" BTW 右键 点 nit "Im BE" Xm AR RDA ES 

l| eniumdk HY atic pub ite 获取 了 一 和 杀 评 论 ， 如 果 要 获取 forie, 5 ARA 具体 代码 ^: fron selenium import webd 
element RX name: ITR Jname $, driver. find_element b md E. h id DET driver. find element 

er. find element by id(" loginBtn’ "). clickQ # 点 击 登 录 pay c be ak: zh AR “hk Ex 3. 我 们 可 qr saloni uni 
, firefox profile-fp, capabilities-caps) driver. get(” http: fína. santostang. ERE Ra. IMM 运行 上 PRA, 83 52 maT P. 
webdriver. DesiredCapabilities(). FIREFOX caps["marionette"] = True binary = FirefoxBinary(r D:\Program Files\Mozilla <A aap elec ex 


BE AMA TAIRE? BRR http://www. eg fe ius abcr iA dani omi ae apogr pica MP aile ee ae 
E (self. agel objl = = Person( santos’, 18) o "m 1. detailO tho ACE Rpselr e 


; me) 
ET: P SAL” M: HERAB? ye ZATAR SSRN ARIHI” V, AA 4 “NRRL” V” AU: 两 个 反 


图 7-6 ”存储 标题 、 链 接 和 内 容 


7.3.6 ”Scrapy 的 设置 文件 


我 们 需要 注意 Scrapy 有 拒 虫 的 设置 文件 settings.py， 其 中 的 设置 可 以 根据 项 目 进行 一 些 修改 。 
下 列 代码 表示 爬虫 遵守 robots 协 议 (第 1 章 已 提 到 ) ， 此 处 希望 大 家 疏 虫 的 时 候 尽量 遵守 爬虫 robots 协 议 。 


ROBOTSTXT OBEY — True 


除 此 之 外 ， 下 列 代码 最 好 是 取消 注释 。 将 这 几 项 取消 注释 后 ， 可 以 读 取 缓 存 ， 那 么 就 不 用 每 次 都 访问 网 站 了 。 


#HTTPCACHE ENABLED = True 


#HTTPCACHE EXPIRATION SECS = 0 


#HTTPCACHE DIR = 'httpcache' 


#HTTPCACHE IGNORE ud ' CODES = [] 
#HTTPCACHE | STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage' 


7A Scrapy[ErgscEE: 财经 新 | 


本 章 实 践 项 目的 目的 是 获取 东方 财富 网 的 财经 要 闻 精 华 ， 网 页 地 址 为 : http://finance.eastmoney.com/news/cywjh.html, 


7.4.1 网 站 分 析 


打开 东方 财富 网 的 财经 要 闻 精 华 的 网 站 ， 右 击 页 面 任意 位 置 ， 在 弹出 的 快捷 菜单 中 单 击 “ 检 查 ” 命令， 如 图 7-7 所 示 。 
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图 7-7 东方 财富 网 -财经 要 闻 精 华 


在 打开 的 代码 中 ， 我 们 可 以 找到 各 个 数据 所 在 的 HTML 代 码 的 位 置 ， 包 括 文章 标题 、 文 章 链 接 和 文章 内 容 。 我 们 可 以 点 击 一 篇 文章 ，i 
的 class 可 以 得 到 如 表 7-2 所 示 的 表格 。 


表 7-2 各 个 数据 定位 的 位 置 


文章 标题 (新 闻 列 表 页 ) 
文章 链接 《新闻 列表 页 ) 
LEAF OCE R h) 


'p', class =’title’ > text 


'p', class =’title’ > a['href'] 


'div', id_= ‘ContentBody’ > 


另外 ， 在 新 闻 列 表 页 中 打开 第 2 页 的 时 候 ， 网 页 URL 地 址 变 成 了 http://finance.eastmoney.com/news/cywjh_2.html。 
Thttp://finance.eastmoney.com/news/cywjh_3.html, 


这 样 就 很 容易 理解 了 ， 当 翻 页 的 时 候 ， 只 是 将 网 页 URL 地 址 的 最 后 一 个 数据 cywjh_2.html 换 成 了 相应 的 页 数 。 


7.4.2 项目 实践 


在 开始 聆 取 之 前 ， 必 须 创建 一 个 新 的 Scrapy 项 目 。 在 cmd 中 进入 一 个 自 定 义 目 录 ， 例 如 捍 面 。 运 行 下 面 命令 ， 记 得 将 用 户 名 改 成 你 的 名 字 。 
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进入 文章 内 容 页 面 ， 找 到 文章 内 容 的 定位 。 通 


在 此 礁 虫 中 将 获取 新 闻 的 标题 、 链 接 和 内 容 。 
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Computed Event Listeners 


show .cls 


1 body { 
seu bep: 


M OLIM 
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h3, h4, h5, h6 


; p, blockquote, pre, form, f 


ton, Layout2wzD-Lx7A,N1x 


select, textarea f 


text 


cd C:\Users\santostang\desktop 


然后 运行 命令 : 


1ND2x6AM 


甬 过 找到 各 个 数据 定位 


scrapy startproject financeSpider 


在 开始 爬虫 之 前 ， 需 要 定义 爬虫 的 目标 字段 。 我 们 想 获 取 http://finance.eastmoney.com/ynews/cywjh_1.html 中 新 闻 的 标题 


要 的 字段 。 


import scrapy 
class FinancespiderItem(scrapy.Item): 
title = scrapy.Field() 


link = 


content = 


scrapy.Field() 
scrapy.Field() 


接 下 来 ， 在 cmd 的 当前 目录 输入 以 下 命令 : 


scrapy genspider finance finance.eastmoney.com 


ftfinanceSpider/spider&li& f —^finance.pyB g Xt, EMT BAfinancefleR, Fase f MAAC Afinance.eastmoney.com, 


我 们 可 以 修改 肛 虫 器 finance.py 进 行 解析 网 页 了 。 代 码 如 下 : 


import scrapy 


from bs4 import BeautifulSoup 


from financeSpider.items import FinancespiderItem 


class FinanceSpider (scrapy.Spider): 


name = 'finance' 

allowed domains = ['finance.eastmoney.com'] 

start urls -['http://finance.eastmoney.com/news/cywjh 1.html"] 
url head = 'http://finance.eastmoney.com/news/cywjh ' 

url end = '.html' 7 


# Scrapy 自 带 功能 ， 从 start _requests 开 始 发 送 请 求 
def start requests (self): 


# 获 取 前 三 页 的 url 地 址 


for i in eons 4): 


url = self.url head + str(i) + self.url end 

print (" 当 前 的 页 面 是 ; " url) 
RA UR E Requect ik 
yield scrapy.Request (url=url, callback = self.parse) 


def parse(self, response): 
soup = BeautifulSoup (response. text, "lxml") 
title list - soup.find all("p", class -"title") 
for i in range(len(title list)): 


def par 


# 将 数据 封装 到 FinancespiderItem 对 象 ， 字 典 类 型 数据 


item = FinancespiderItem() 


title = title list[i].a.text.strip() 

link = title | list [i].a["href"] 

# xu 

item["title"] = title 

item|"link"] = link 

# 根据 文章 链接 ， 发 送 Request 请 求 ， 并 传递 item 参 数 
yield scrapy.Request (url=link, meta 


se2 (self, response): 


# 接 收 传递 的 jtem 


item = response.meta['item'] 


# 解 析 提 取 文 章 内 容 
soup = BeautifulSoup(response.text, "lxml") 


con 


tent = soup.find("div", id="ContentBody") .text.strip () 


con 


item["content"] 


tent content.replace("\n", " ") 
content 


# 返 回 item， 交 给 item pipelin 
yield item 


在 上 述 代 码 中 ， 与 之 前 疏 取 博客 不 一 样 的 地 方 是 ， 我 们 使 用 了 从 start_requests 开 始 发 送 请 求 ，start_requests 这 个 方法 是 Scrapy 自 带 功 能 ， 目 的 


用 yield 请 求 列 表 页 ， 调 用 parse 来 进行 解析 。 


在 parse 和 parse2 中 ， 里 面 的 代码 和 之 前 爬 取 博客 的 代码 十 分 类 似 ， 唯 一 的 不 同 是 各 


此 外 ， 我 们 还 需要 修改 最 后 数据 的 存储 文件 pipelines.py， 代 码 如 下 : 
class FinancespiderPipeline (object): 
# 填 入 你 的 地 址 
file path = "C:/Users/santostang/Desktop/financeSpider/result.txt" 
def init (self): 
self.article = open(self.file path, "a+", encoding-"utf-8") 


# 定 义 管道 的 处 理 方法 


def process _ item(self, item, spider): 


titl 


e = item["title"] 


link = item["link"] 


content 


item["content"] 


output = title + 'Nt' + link + 'Nt' + content + '\n\n' 


sel 


f.article.write (output) 


return item 


述 代码 和 之 前 他 取 博 客 的 代码 基本 上 一 模 一 样 ， 只 是 数据 存储 的 地 址 发 生变 化 而 已 。 


这 时 ， 务 必 记 得 要 将 settings.py 的 ITEM_PIPELINES 取 消 注 释 : 


Spider.pipelines.FinancespiderPipeline': 300, 


TEM PIPELINES = { 
'financ 
} 
在 完成 上 述 操作 之 后 ， 在 命令 


scrapy crawl 


行 中 运行 如 下 代码 : 


finance 


('item':item), callback = self.parse2) 


个 数据 定位 的 位 置 ， 


运行 完成 后 ， 可 以 看 到 financeSpider 文 件 夹 中 出 现 了 result.txt 文 件 ， 内 容 如 图 7-8 所 示 。 
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图 7-8 新 闻 标 题 、 链 接 和 内 容 


此 外 ， 你 会 发 现 运行 的 速度 非常 快 ， 一 上 电眼 的 功夫 就 跑 完了 。 这 与 使 用 Requests 和 bs4 的 串 行 相 比 ， 简 直 就 是 单车 和 高 铁 的 差距 ， 而 且 代 码 也 比较 简单 ， 这 也 是 需要 介绍 Scrapy 的 原因 。 不 过 ， 怜 虫 的 
瓶 须 一 般 不 在 乎 速度 ， 而 是 反 息 虫 ， 所 以 使 用 Scrapy 也 有 它 的 限制 。 


7.4.3 ARLEN 


读者 若 有 时 间 ， 可 以 实践 进 阶 问题 : 获取 这 些 新 闻 的 发 布 时 间 、 评 论 数 、 评 论 人 数 等 其 他 详细 信息 ; 也 可 以 尝试 将 数据 存储 到 MySQL 数 据 库 中 。 


第 8 草 te Me RARE 


某 一 


BN, 


面 7 章 的 学 习 ， 相 信 读 者 已 经 能 够 从 获取 网 页 、 解 析 网 页 、 存 储 数 据 来 实现 一 些 基 本 的 爬 由 了 。 从 本 章 开 始 ， 我 们 将 进入 爬虫 的 进 阶 部 分 ， 包 括 第 8 章 到 第 13 章 。 进 阶 部 分 的 各 章 并 没有 先后 顺 
章 感 兴趣 的 读者 可 以 直接 跳 到 这 章 学 习 。 
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8.1 并 友和 并 行 ， 同 步 和 异步 


在 介绍 多 线程 怜 虫 之 前 ， 首 先 需要 熟悉 并 发 和 并 行 、 同 步 和 异步 的 概念 。 如 果 阅 读 完 本 节 后 仍 对 并 发 和 并 行 、 同 步 和 异步 不 太 理解 ， 没 有 关系 ， 你 可 以 先 学 习 后 面 的 代码 ， 毕 竟 阅 读本 书 的 目的 是 实践 
Python eR, 


8.1.1 并 上 友和 并 行 


#& (concurrency) 和 并 行 (parallelism) 是 两 个 相似 的 概念 。 引 用 一 个 比较 容易 理解 的 说 法 ， 并 发 是 指 在 一 个 时 间 段 内 发 生 若 干事 件 的 情况 ， 并 行 是 指 在 同一 时 刻 发 生 若 干事 件 的 情况 。 


这 个 概念 用 单 核 CPU 和 多 核 CPU 比 较 容易 说 明 。 在 使 用 单 核 CPU 时 ， 多 个 工作 任务 是 以 并 发 的 方式 运行 的 ， 因 为 只 有 一 个 CPU， 所 以 各 个 任务 会 分 别 占用 CPU 的 一 段 时 间 依次 执行 。 如 果 在 自己 分 得 和 
时 间 段 没有 完成 任务 ， 就 会 切换 到 另 一 个 任务 ， 然 后 在 下 一 次 得 到 CPU 使 用 权 的 时 候 再 继续 执行 ， 直 到 完成 。 在 这 种 情况 下 ， 因 为 各 个 任务 的 时 间 段 很 得 、 经 常 切换 ， 所 以 给 我 们 的 感觉 是 “同时 ”进行 。 
在 使 用 多 核 CPU 时 ， 在 各 个 核 的 任务 能 够 同时 运行 ， 这 是 真正 的 同时 运行 ， 也 就 是 并 行 。 


类 似 于 要 完成 吃 完 一 砚 米 饭 和 一 碗 青椒 炒 肉 的 任务 ，“ 并 发 ”就 是 一 个 人 吃 ， 这 个 人 吃 一 口 菜 然 后 吃 一 口 饭 ， 由 于 切换 速度 比较 快 ， 让 你 觉得 他 在 “同时 ” 吃 菜 和 饭 ; “并 行 ”就 是 两 个 人 同时 吃 ， 一 
个 人 吃饭 ， 另 一 个 人 吃 菜 。 


8.1.2 ”同步 和 异步 


同步 和 异步 也 是 两 个 值得 比较 的 概念 。 下 面 在 并 发 和 并 行 框架 的 基础 上 理解 同步 和 异步 ， 同 步 就 是 并 发 或 并 行 的 各 个 任务 不 是 独自 运行 的 ， 任 务 之 间 有 一 定 的 交 奉 顺序 ， 可 能 在 运行 完 一 个 任务 得 到 结 
果 后 ， 另 一 个 任务 才 会 开始 运行 。 就 像 接 力 赛跑 一 样 ， 要 拿 到 交接 棒 之 后 下 一 个 选手 才 可 以 开始 跑 。 
异步 则 是 并 发 或 并 行 的 各 个 任务 可 以 独立 运行 ， 一 个 任务 的 运行 不 受 另 一 个 任务 影响 ， 任 务 之 间 就 像 比赛 的 各 个 选手 在 不 同 的 赛 道 比赛 一 样 ， 跑 步 的 速度 不 受 其 他 赛 道 选 手 的 影响 。 


在 网 络 聆 虫 中 ， 假 设 你 需要 打开 4 个 不 同 的 网 站 ，IO (Input/Ouput 输 入 /输出 ) 过 程 就 相当 于 打开 网 站 的 过 程 ，CPU 就 是 单 击 的 动作 。 你 单 击 的 动作 很 快 ， 但 是 网 站 打开 得 很 慢 。 同 步 IO 是 指 你 每 单 击 
一 个 网 址 ， 要 等 待 该 网 站 彻底 显示 才 可 以 单 击 下 一 个 网 址 ， 也 就 是 我 们 之 前 学 过 的 聆 虫 方式 。 异 步 1O 是 指 你 单 击 完 一 个 网 址 ， 不 用 等 对 方 服务 器 返回 结果 ， 立 即 可 以 用 新 打开 的 浏览 器 窗口 打开 另 一 个 网 
址 ， 以 此 类 推 ， 最 后 同时 等 待 4 个 网 站 彻底 打开 。 

很 明显 ， 异 步 的 速度 要 快 得 多 。 


下 面 介 绍 的 多 线程 、 多 进程 、 多 协 程 网 络 候 虫 在 进行 网 页 10 的 时 候 都 是 使 用 异步 方式 “同时 ”获取 多 个 网 页 ， 从 而 加 快 网 页 的 息 取 速度 。 对 于 这 3 种 并 发 、 并 行 网 络 息 虫 ， 我 们 都 会 计算 时 间 ， 大 家 可 
以 通过 时 间 的 对 比 了 解 提升 的 效率 。 我 们 还 可 以 在 同样 的 网 络 环境 下 完成 这 3 种 方式 的 有 代 虫 ， 使 得 这 3 种 方式 的 时 间 对 比 更 加 公平 准确 。 


8.2 ”多 线程 胞 虫 


多 线程 的 虫 是 以 并 发 的 方式 执行 的 。 也 就 是 说 ， 多 个 线程 并 不 能 真正 的 同时 执行 ， 而 是 通过 进程 的 快速 切换 加 快 网 络 息 虫 速度 的 。 

Python 本 身 的 设计 对 多 线程 的 执行 有 所 限制 。 在 Python 设 计 之 初 ， 为 了 数据 安全 所 做 的 决定 设置 有 GIL (Global Interpreter Lock， 全 局 解释 器 锁 ) 。 在 Python 中 ， 一 个 线程 的 执行 过 程 包括 获取 
GIL、 执 行 代码 直到 | 挂 起 和 释放 GIL。 

例如 ， 某 个 线程 想 要 执行 ， 必 须 先 拿 到 GIL， 我 们 可 以 把 GIL 看 作 “ 通 行 证 ”， 并 且 在 一 个 Python 进程 中 ， 只 有 一 个 GIL。 拿 不 到 通行 证 的 线程 就 不 允许 进入 CPU 执行 。 

每 次 释放 GIL 锁 ， 线 程 之 间 都 会 进行 锁 竞 争 ， 而 切换 线程 会 消耗 资源 。 由 于 GIL 锁 的 存在 ，Python 中 一 个 进程 永远 只 能 同时 执行 一 个 线程 ( 拿 到 GIL 的 线程 才能 执行 ) ， 这 就 是 在 多 核 CPU 上 Python 的 多 
线程 效率 不 高 的 原因 。 

由 于 GIL 的 存在 ， 多 线程 是 不 是 就 没 用 了 呢 ? 

以 网 络 聆 虫 来 说 ， 网 络 礁 虫 是 IO 密集 型 ， 多 线程 能 够 有 效 地 提升 效率 ， 因 为 单线 程 下 有 1O 操 作 会 进行 IO 等 待 ， 所 以 会 造成 不 必要 的 时 间 浪费 ， 而 开启 多 线程 能 在 线程 A 等 待 时 自动 切换 到 线程 B， 可 以 
不 浪费 CPU 的 资源 ， 从 而 提升 程序 执行 的 效率 。 

Python 的 多 线程 对 于 IO 密集 型 代码 比较 友好 ， 网 络 爬 虫 能 够 在 获取 网 页 的 过 程 中 使 用 多 线程 ， 从 而 加 快速 度 。 


下 面 将 以 获取 访问 量 最 大 的 1000 个 中 文 网 站 的 速度 为 例 ， 通 过 和 单线 程 的 爬虫 比较 ， 证 实 多 线程 方法 在 网 络 疏 虫 速度 上 的 提升 。 这 1000 个 访问 量 最 大 的 中 文 网 站 是 在 Alexca.cn 上 获取 的 ， 如 果 需 要 这 
1000 个 网 站 地 址 的 数据 ， 可 以 去 笔者 的 博客 下 载 ， 地 址 为 http://www.santostang.com， 点 击 怜 虫 书 代 码 。 


假设 我 们 已 经 将 1000 个 网 站 的 地 址 下 载 到 本 地 ， 命 名 为 alexa.txt， 并 放 在 Jupyter Notebook 所 在 的 文件 夹 中 。 


8.2.1 ”简单 的 单线 程 肛 虫 
首先 ， 以 单线 程 ( 单 进程 ) 的 方式 抓 取 这 1000 个 网 页 ， 代 码 如 下 : 


import requests 
import time 


link list = [] 
with open('alexa.txt', 'r') as file: 
file list = file.readlines () 


for eachone in file list: 
link = eachone.split(' 
link = link.replace('\ 
link list.append (link) 


") [1] 
us» 


, 


start = time.time() 
for eachone in link list: 
try: 7 
r = requests.get (eachone) 
print (r.status code, eachone) 


except Exception as e: 
print ('Error: ', e) 
end = time.time () 
print (" 串 行 的 总 时 间 为 : '，end-start) 


运行 上 述 代码 ， 得 到 的 结果 是 : 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/18359/OEBPS/Text/... 


串 行 的 总 时 间 为 : 2030.428 


8.2.2 学习 Python 多 线程 


如 果 使 用 多 线程 怜 虫 ， 那 么 需要 先 了 解 Python 中 使 用 多 线程 的 两 种 方法 。 
(1) 函数 式 : 调用 thread 模块 中 的 start_new thread() 国 数 产 生 新 线程 。 


(2) 类 包装 式 : 调用 Threading 库 创建 线程 ， 从 threading.Thread 继 承 。 


首先 介绍 函数 式 ， 在 Python 3 中 不 能 继续 使 用 thread 模 块 。 为 了 兼容 性 考虑 ，Python 3 将 thread 重 命名 为 thread, 


下 面 我 们 使 用 实例 感受 一 下 。 


impor! 
import 


# 为 线程 定义 一 个 函数 
def print time(threadName, delay): 
count = 0 
while count < 3: 
time.sleep (delay) 
= 1 


_thread 
time 


count += 
print (threadName, time.ctime()) 

 thread.start new thread(print time, ("Thread-1", 1)) 

thread.start new thread(print time, ("Thread-2", 2)) 


print ("Main Finished") 


Main Finished 


Thread-1 Thu Nov 2919:33:592018 


Thread-2 Thu Nov 2919:34:002018 


Thread-1 Thu Nov 2919:34:002018 


Thread-1 Thu Nov 2919:34:012018 


Thread-2 Thu Nov 2919:34:022018 


Thread-2 Thu Nov 2919:34:042018 


可 以 看 到 ， 主 续 程 先 完成 操作 。 虽 然 主 线程 已 经 完成 ， 但 是 两 个 新 的 线程 还 是 会 继续 运行 ， 分 别 睡 眠 1 秒 和 2 秒 后 ， 输 出 一 段 话 。 


_thread 中 使 用 start_new _thread() 国 数 来 产生 新 线程 ， 语 法 如 下 : 


_thread.start new thread ( function, args[, kwargs] ) 


Eh, function KRR, fe Eplr73print time; args 为 传递 给 线程 国 数 的 参 


数 ， 它 必须 是 tuple 


类 型 ， 


在 上 例 中 为 (Thread-1",1); 最 后 的 kwargs 是 可 选 参数 。 


_thread 提 供 了 低级 别 、 原 始 的 线程 ， 它 相 比 于 threading 模 块 ， 功 能 还 是 比较 有 限 的 。threading 模 块 提供 了 Thread 类 来 处 理 线程 ， 包 括 以 下 方法 。 


run): 用 以 表示 线程 活动 的 方法 。 


start): 启动 线程 活动 。 


:join([ime]: 等 待 至 线程 中 止 。 阻 塞 调用 线程 直至 线程 的 join0 方 法 被 调用 为 止 。 


-isAlive): 返回 线程 是 否 是 活动 的 。 
- getName): 返回 线程 名 。 
- setName): 设置 线程 名 。 


下 面 介绍 使 用 threading 的 一 个 简单 的 例子 ， 看 看 多 线程 是 如 何 运 行 的 。 


import 
import 


threading 
time 


class myThread (threading.Thread) : 
def init (self, name, delay): 
threading.Thread. init (self) 
self.name = name 


self.delay = delay 

def run(self): 
print ("Starting " + self.name) 
print time(self.name, self.delay) 
print ("Exiting " + self.name) 


def print time (threadName, delay): 
counter = 0 

while counter < 3: 
time.sleep (delay) 
print (threadName, 
counter += 1 


time.ctime()) 


threads = [] 


# 创建 新 线程 
threadl = myThread("Thread-1", 1) 
thread2 = myThread("Thread-2", 2) 


# 开启 新 线程 
threadl .start () 
thread2.start () 


# 添加 线程 到 线程 列表 
threads.append (threadl) 
threads.append (thread2) 


# 等 待 所 有 线程 完成 
for t in threads: 
t.join() 


print ("Exiting Main Thread") 


Starting Thread-1 


Starting Thread-2 


Thread-1 Tue May 2322:31:052017 
Thread-1 Tue May 2322:31:062017 
Thread-2 Tue May 2322:31:062017 
Thread-1 Tue May 2322:31:072017 
Exiting Thread-1 

Thread-2 Tue May 2322:31:082017 
Thread-2 Tue May 2322:31:102017 
Exiting Thread-2Exiting Main Thread 


在 上 述 代 码 中 ， 我 们 将 任务 手动 地 分 到 两 个 线程 中 ， 即 thread1=myThread("Thread-1",1)。 接 下 来 在 myThread 这 个 类 中 对 线程 进行 设置 ， 使 用 run() 表 示 线 程 运行 的 方法 ， 当 counter 小 于 3 时 ,打印 
该 线程 的 名 称 和 时 间 。 


然后 使 用 thread.start(0 开 局 线程 ， 使 用 threads.append() 将 线程 加 入 线程 列表 ， 使 用 tjoin() 等 待 所 有 子 线程 完成 才 会 继续 执行 主线 程 。 虽 然 在 这 个 简单 的 例子 中 得 到 的 结果 和 之 前 使 用 thread 几乎 一 
样 ， 但 是 使 用 threading 能 够 有 效 地 控制 线程 ， 将 在 网 络 聆 虫 中 发 挥 更 好 的 效果 。 


8.2.3” 简 畦 的 多 线程 肛 虫 


刚刚 我 们 使 用 threading 完 成 了 多 线程 的 简单 代码 ， 现 在 就 将 Python 多 线程 的 代码 应 用 在 获取 1000 个 网 页 上 ， 并 开启 5 个 线程 ， 代 码 如 下 : 


import threading 
import requests 
import time 
link list - [] 
with open('alexa.txt', 'r') as file: 
file list = file.readlines () 
for eachone in file list: 
link = eachone.split('\t') [1] 
link = link.replace('\n','') 
link list.append (link) 
start = time.time() 
class myThread (threading. Thread) : 
def init (self, name, link range): 
threading. ied: | init (self) 


self.name = name 
self.link range - link range 
def run(self): 
print ("Starting " + self.name) 
crawler(self.name, self.link range) 
print ("Exiting " + self.name) 


def crawler (threadName, link range): 
for i in range(link range[0],link range[1]+1): 
try: 


r — requests.get(link list[i], timeout-20) 

print (threadName, r.status code, link list[i]) 
except Exception as e: 

print(threadName, 'Error: ', e) 


thread list = [] 
link range list = [(0,200), (201,400), (401,600), (601,800), (801,1000) ] 


# 创建 新 线程 

for i in range(1,6): 

thread = myThread("Thread-" + str(i), link range list[i-1]) 
thread.start () 

thread list.append (thread) 


# 等 等 所 有 线程 完成 
or thread in thread list: 
thread.join() 


end = time.time( 
print que TETTE ', end-start) 


print ("Exiting Main Thread") 


在 上 述 代 码 中 ， 我 们 将 1000 个 网 页 分 成 了 5 份 ， 每 一 份 是 200 个 网 页 ， 即 : 


link range list = [(0,200), (201,400), (401,600), (601,800), (801,1000) ] 


然后 利用 一 个 for 循 环 创建 5 个 线程 ， 将 这 些 网 页 分 别 指派 到 5 个 线程 中 运行 ,只 


thread = myThread("Thread-" + str(i), link range list[i-1]) 


在 每 一 个 线程 中 ， 我 们 将 之 前 单线 程 好 虫 中 获取 网 页 部 分 的 代码 放 入 crawler 函 数 中 ， 抓 取 这 些 网 页 。 为 了 让 这 些 子 线程 执行 完 后 再 执行 主 进程 ， 这 里 使 用 了 thread.join(0) 方 法 等 待 各 个 线程 执行 完毕 。 
最 后 ， 还 会 记录 下 所 有 线程 执行 完成 的 时 间 end-start， 从 而 得 到 多 线程 候 虫 完成 获取 1000 个 网 页 任务 所 需 的 时 间 。 


运行 上 述 代 码 ， 得 到 的 结果 为 : 
Starting Thread-1 

Starting Thread-2 

Starting Thread-3 

Starting Thread-4 

Thread-1200 http://www.baidu.com 


Thread-2200 http://www.dell.com 


Thread-1200 http://www.qq.com 
Thread-4200 http://www.wowenda.com 
Thread-1200 http://www.naver.com 
Thread-2200 http://www.dict.cn 
Thread-1200 http://www.taobao.com 


Thread-3200 http://www.unrealengine.com 


运行 结束 后 ， 得 到 运行 的 时 间 为 : 428.8188, 


上 述 代码 存在 一 些 可 以 改进 之 处 : 因为 我 们 把 整个 链接 列表 分 成 了 5 等 份 ， 所 以 当 某 个 线程 先 完成 200 条 网 页 的 息 虫 后 会 退出 线程 ， 这 样 就 只 剩 下 有 4 个 线程 在 运行 。 相 对 于 5 个 线程 ， 速 度 会 有 所 下 降 ， 
到 最 后 剩 下 一 个 线程 在 运行 时 ， 就 会 变 成 单线 程 。 


8.2.4 使 用 Queue 的 多 线程 疏 虫 


有 没有 一 种 方式 能 够 在 完成 1000 个 网 页 的 抓 取 之 前 都 使 用 5 个 线程 的 全 速 怜 虫 呢 ?” 这 时 可 以 使 用 Queue。Python 的 Queue 模 块 中 提供 了 同步 的 、 线 程 安 全 的 队列 类 ， 包 括 FIFO (先入 先 出 ) 队列 
Queue, LIFO (后 入 先 出 ) 队列 LifoQueue 和 优先 级 队列 PriorityQueue。 


将 这 1000 个 网 页 放 入 Queue 的 队列 中 ， 各 个 线程 都 是 从 这 个 队列 中 获取 链接 ， 直 到 完成 所 有 的 网 页 抓 取 为 止 ， 代 码 如 下 : 


import threading 
import requests 
import time 
import queue as Queue 
link list = [] 
with open('alexa.txt', 'r') as file: 
file list = file.readlines () 
for eachone in file list: 
link = eachone.split('\t") [1] 
link = link.replace('\n','') 
link list.append (link) 
start = time.time() 
class myThread (threading.Thread) : 
def init (self, name, q): 
threading.Thread. init (self) 
self.name = name 
self.q = q 
def run (self): 
print ("Starting " + self.name) 
while True: 
try: 
crawler(self.name, self.q) 
except: 
break 
print ("Exiting " + self.name) 


def crawler (threadName, q): 
url q.get (timeout-2) 
try: 
r = requests.get(url, timeout=20) 
print (q.qsize(), threadName, r.status code, url) 
except Exception as e: 
print (q.qsize(), threadName, url, 


"Error: ', e) 


threadList = ["Thread-1", "Thread-2", "Thread-3","Thread-4", "Thread-5"] 
workQueue - Queue.Queue (1000) 
threads = [] 


# 创建 新 线程 

for tName in threadList: 

thread = myThread(tName, workQueue) 
thread.start () 
threads.append (thread) 


# 填充 队列 
for url in link list: 
workQueue.put (url) 


# 等 待 所 有 线程 完成 
for t in threads: 
t.join() 


end = time.time|() 
print ('QueueZ£ XE UN: ', end-start) 
pri nt ("Exi ti ng Main Thread") 


与 之 前 的 简单 多 线程 方法 不 同 的 是 ， 在 上 述 代 码 中 ， 我 们 使 用 workQueue=Queue.Queue(1000) 建 立 了 一 个 队列 的 对 象 ， 然 后 将 这 个 对 象 传 入 了 myThread 中 ， 即 : 
thread = myThread(tName, workQueue) 


这 个 workQueue 里 面 有 什么 呢 ? 我 们 可 以 使 用 一 个 for 循 环 来 填充 队列 : 


for url in link list: 
workQueue.put (url) 


利用 workQueue.put(url) 将 这 1000 个 网 页 加 入 队列 中 ， 然 后 就 可 以 在 线程 中 使 用 url=q.get(timeout=2) 获 取 队 列 中 的 链接 了 。 


这 就 好 比 银行 排队 ， 单 线程 表示 该 支行 只 有 一 个 窗口 ， 要 处 理 1000 个 人 需要 花费 很 长 时 间 ; 简单 的 多 线程 是 开 5 个 窗口 ， 然 后 将 1000 个 人 平均 分 到 5 个 窗口 中 ， 因 为 有 些 窗口 可 能 处 理 得 比较 快 ， 所 以 先 
处 理 完了 。 但 是 其 他 窗口 的 人 不 能 去 那个 已 经 处 理 完 的 窗口 排队 ， 这 样 就 造成 了 资源 的 闲置 。Queue 方 法 相对 于 前 两 种 方法 而 言 ， 是 将 1000 人 排 一 个 长 队 ，5 个 窗口 中 哪个 窗口 有 了 空位 ， 便 叫 队列 中 的 第 
一 个 过 去 (FIFO 先 入 先 出 方法 ) 。 


运行 结束 后 ， 得 到 运行 的 时 间 为 : 410.573 秒 。 


从 结果 的 对 比 可 以 友 现 ， 使 用 Queue 方 法 比 之 前 的 简单 多 线程 代 虫 方法 所 需 的 时 间 少 了 10 多 秒 ， 可 见 Queue 方 法 能 够 提高 抓 取 的 效率 。 


8.3 SHEER 


788.2151148 T ZRI, Python EER ZTE, $87 AERLUTABJAASPX(. AFGIL (Global Interpreter Lock， 全 局 解释 器 锁 ) WE, $etXEO3f4 8652 A TEZE 
核 CPU 的 资源 。 


作为 提升 Python 网 络 礁 虫 速度 的 另 一 种 方法 ， 多 进程 聆 虫 则 可 以 利用 CPU 的 多 核 ， 进 程 数 取决 于 计算 机 CPU 的 处 理 器 个 数 。 由 于 运行 在 不 同 的 核 上 ， 各 个 进程 的 运行 是 并 行 的 。 在 Python 中 ， 如 果 我 
们 要 用 多 进程 ， 就 需要 用 到 multiprocessing 这 个 库 。 


使 用 multiprocess 库 有 两 种 方法 : 一 种 是 使 用 Process+Queue 的 方法 ， 另 一 种 是 使 用 Pool+Queue 的 方法 。 下 面 会 详细 介绍 


8.3.1 使 用 multiprocessing 的 多 进程 他 虫 


multiprocessing 对 于 习惯 使 用 threading 多 线程 的 用 户 非 常 友 好 ， 因 为 它 的 理念 是 像 线程 一 样 管理 进程 ， 和 threading 很 像 ， 而 且 对 于 多 核 CPU 的 利用 率 比 threading 高 得 多 。 


当 进 程 数量 大 于 CPU 的 内 核 数 量 时 ， 等 待 运行 的 进程 会 等 到 其 他 进程 运行 完毕 让 出 内 核 为 止 。 因此， 如 果 CPU 是 单 核 ， 就 无 法 进行 多 进程 并 行 。 在 使 用 多 进程 息 虫 之 前 ,我 们 需要 先 了 解 计算 机 CPU 的 
核心 数量 。 这 里 用 到 了 multiprocessing : 


from multiprocessing import cpu count 
print (cpu count () ) 


运行 上 述 代码 ， 得 到 的 结果 是 4， 也 就 是 本 机 的 CPU 核心 数 为 4。 


在 这 里 使 用 3 个 进程 ， 代 码 如 下 : 


from multiprocessing import Process, Queue 
import time 
import requests 


link list = [] 

with open('alexa.txt', 'r') as file: 
file list = file.readlines () 
for eachone in file list: 


link = eachone.split('\t 
link = link.replace('\n', 
link list.append (link) 


"ELI 
VY) 


start = time.time() 
class MyProcess (Process) : 


def init (self, q): 
Process. init (self) 
self.q = q 


def run (self): 
print ("Starting " , self.pid) 
while not self.q.empty(): 
crawler (self.q) 
print ("Exiting " , self.pid) 


def crawler (q): 
url q.get (timeout-2) 
try: 
r = requests.get(url, timeout-20) 
print (q.qsize(), r.status code, url) 
except Exception as e: 
print (q.qsize(), url, 'Error: ', e) 


if name == ' main ': 
ProcessNames = ["Process-1", "Process-2", "Process-3"] 
workQueue - Queue (1000) 
# 填充 队列 


for url in link list: 
workQueue.put (url) 


i in range(0, 3): 

p = MyProcess (workQueue) 
p.daemon = True 
p.start () 

p.join() 


end = time.time() . 
print ('Process + Queue XEFEÉH WEBBJJ: ', end-start) 
print ('Main process Ended! ' ) 


在 上 述 代码 中 ， 使 用 multiprocessing 的 方式 基本 和 thread 库 类 似 。 首 先 使 用 : 


from multiprocessing import Process, Queue 


导入 multiprocessing 库 。 值 得 注意 的 是 ， 在 thread 多 线程 中 用 来 控制 队列 的 Queue 库 ，multiprocessing 自 带 了 。 和 thread 类 似 的 是 ， 在 读 取 链 接 列 表 后 创建 了 MyProcess 这 个 类 ， 变 量 是 
workQueue 队 列 。 该 类 的 其 他 部 分 基本 与 thread 多 线程 类 似 。 


我 们 继续 使 用 循环 来 添加 进程 ， 与 多 线程 不 同 的 是 ， 在 多 进程 中 设置 了 daemon。 


p.daemon = True 


在 多 进程 中 ，daemon 是 什么 呢 ? 在 多 进程 中 ， 每 个 进程 都 可 以 单独 设置 它 的 属性 ， 如 果 将 daemon 设 置 为 True， 当 父 进程 结束 后 ， 子 进程 就 会 自动 被 终止。 


8.3.2 ”使 用 Pool+Queue 的 多 进程 他 虫 


和 thread 不 同 的 是 ， 除 了 采用 Queue+Process 类 的 方法 实现 多 线程 疏 虫 外 ， 还 可 以 使 用 Pool 方 法 。 当 被 操作 对 象 数目 不 大 时 ， 可 以 直接 利用 multiprocessing 中 的 Process 动 态 成 生 多 个 进程 ， 十 几 个 


还 好 ， 但 如 果 是 上 百 个 、 上 干 个 进程 ， 手 动 地 限制 进程 数量 就 太 过 烦琐 ， 此 时 可 以 使 用 PoolI 发 挥 进程 池 的 功效 。 


Pool 可 以 提供 指定 数量 的 进程 供用 户 调用 。 当 有 新 的 请 求 提 交 到 pool 中 时 ， 如 果 池 还 没有 满 ， 就 会 创建 一 个 新 的 进程 用 来 执行 该 请 求 ， 但 如 果 池 中 的 进程 数 已 经 达到 规定 的 最 大 值 ， 该 请 求 就 会 继续 等 
待 ， 直 到 池 中 有 进程 结束 才能 够 创建 新 的 进程 。 


在 使 用 Pool 之 前 需要 了 解 一 下 阻塞 和 非 阻塞 的 概念 。 


阻塞 和 非 阻塞 关注 的 是 程序 在 等 待 调用 结果 (消息 、 返 回 值 ) 时 的 状态 。 阻 塞 要 等 到 回调 结果 出 来 ， 在 有 结果 之 前 ， 当 前 进程 会 被 挂 起 。 非 阻塞 为 添加 进程 后 ， 不 一 定 非 要 等 到 结果 出 来 就 可 以 添加 其 


首先 ,我 们 可 以 使 用 Pool 的 非 阻 塞 方法 和 Queue 获 取 网 页 数据 ， 代 码 如 下 : 


from multiprocessing import Pool, Manager 
import time 
import requests 


link list - [] 

with open('alexa.txt', 'r') as file: 

file list = file.readlines () 

for eachone in file list: 
link = eachone.split('\t") [1] 

link = link.replace('\n','') 

link list.append (link) 


start = time.time() 
def crawler(q, index): 
Process id = 'Process-' + str (index) 
while not q.empty(): 
url q.get (timeout=2) 
try: 
r = requests.get (url, timeout=20) 
print (Process id, q.qsize(), r.status code, url) 
except Exception as e: 
print (Process id, q.qsize(), url, 'Error: ', e) 


Pf name == ' main ': 
manager = Manager () 
workQueue = manager.Queue (1000) 


# 填充 队列 
for url in link list: 
workQueue.put (url) 


pool = Pool (processes=3) 
for i in range(4): 
pool.apply async(crawler, args=(workQueue, i)) 


print ("Started processes") 
pool.close() 
pool.join() 


end = time.time() 
print ('Pool + Queue#HEFEIE RA ATEA: ', end-start) 
print ('Main process Ended! ' ) 


如 果 要 将 线程 池 Pool 和 Queue 结 合 ，Queue 的 使 用 方式 就 需要 改变 ， 这 里 用 到 multiprocessing 中 的 Manger， 使 用 manager=Manager(0 和 workQueue=manager.Queue(1000) 来 创建 队列 。 这 个 队 
列 对 象 可 以 在 父 进程 与 子 进 程 间 通 信 。 接 下 来 创建 线程 池 和 线程 ， 代 码 如 下 : 
pool = Pool (processes=3) 


for i in range(4): 
pool.apply async (crawler, args=(workQueue, i) ) 


使 用 Pool(processes=3) 创 建 线程 池 的 最 大 值 为 3， 使 用 pool 创 建 子 进程 的 方法 与 Process 不 同 ， 是 通过 pool.apply_ async(target=func,args=(args)) 实 现 的 ， 上 述 代码 使 用 
pool.apply async(crawler,args=(workQueue,i)) 创 建 非 阻塞 进程 。 


值得 注意 的 是 ， 参 数值 是 crawler 的 函数 名 ， 而 并 非 是 crawler(0， 因 为 带 有 括号 表示 是 对 函数 的 调用 。 假 如 使 用 target=crawler(0， 就 代表 调用 crawler() 函 数 ， 将 返回 的 结果 赋予 target， 这 并 非 我 们 想 
要 的 。 第 二 个 参数 args 是 使 用 元 组 (tuple) 类 型 传 入 两 个 参数 。 


Process-12200 http://www.qq.com 
Process-10429 http://www.reddit.com 
Process-03200 http://www.baidu.com 
Process-00200 http://www.taobao.com 
Process-21200 http://www.naver.com 


Process-20200 http://www.sohu.com 


上 述 例子 使 用 了 非 阻塞 方法 ， 也 就 是 说 ， 不 需要 等 到 进程 运行 完 就 可 以 添加 其 他 进程 了 。 如 果 要 使 用 阻塞 方法 也 很 简单 ， 将 pool.apply_async(target=func'args=(args)) 改 成 
pool.apply(target=func,args=(args)) By, 


修改 成 阻塞 方法 后 ， 运 行 代码 ， 得 到 的 结果 是 : 
Process-0999200 http://www.baidu.com 
Process-0998200 http://www.qq.com 
Process-0997200 http://www.naver.com 
Process-0996200 http://www.taobao.com 


Process-0995429 http://www.reddit.com 


Process-0994200 http://www.sohu.com 


可 以 上 发现 ， 与 非 阻塞 方法 不 同 的 是 ， 阻 塞 方法 一 定 要 等 到 某 个 进程 执行 完 才 会 添加 另 一 个 进程 。 
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除了 多 线程 和 多 进程 外 ，Python 的 网 络 吟 虫 还 可 以 使 用 协 程 (Coroutine) 。 协 程 是 一 种 用 户 态 的 轻 量 级 线程 ， 使 用 协 程 有 众多 好 处 : 

第 一 个 好 处 是 协 程 像 一 种 在 程序 级 别 模拟 系统 级 别 的 进程 ， 由 于 是 单线 程 ， 并 且 少 了 上 下 文 切 损 ， 因 此 相对 来 说 系统 消耗 很 少 ， 而 且 网 上 的 各 种 测试 也 表明 协 程 确实 拥有 惊人 的 速度 。 

第 二 个 好 处 是 协 程 方便 切换 控制 流 ， 这 就 简化 了 编程 模型 。 协 程 能 保留 上 一 次 调用 时 的 状态 (所 有 局 部 状态 的 一 个 特定 组 合 ) ， 每 次 过 程 重 入 时 ， 就 相当 于 进入 了 上 一 次 调用 的 状态 。 

第 三 个 好 处 是 协 程 的 高 扩展 性 和 高 并 发 性 ， 一 个 CPU 支持 上 万 协 程 都 不 是 问题 ， 所 以 很 适合 用 于 高 并 发 处 理 。 

协 程 也 有 缺点 。 第 一 ， 协 程 的 本 质 是 一 个 单线 程 ， 不 能 同时 使 用 单个 CPU 的 多 核 ， 需 要 和 进程 配合 才能 运行 在 多 CPU 上 。 第 二 ， 有 长 时 间 阻 塞 的 IO 操作 时 不 要 用 协 程 ， 因 为 可 能 会 阻塞 整个 程序 。 


在 Python 的 协 程 中 可 以 使 用 gevent 库 。gevent 也 可 以 使 用 pip 安 装 : 


pip install gevent 


安装 完 gevent， 就 可 以 使 用 gevent 进 行 他 虫 了 ， 代 码 如 下 : 


import gevent 

from gevent.queue import Queue, Empty 
import time 
import requests 


from gevent import monkey # 拒 下 面 有 可 能 有 IO 操作 的 单独 做 上 标记 
monkey.patch all()4 将 IO 转 为 异步 执行 的 函数 


link list = [] 

with open('alexa.txt', 'r') as file: 

file list = file.readlines () 

for eachone in file list: 
link = eachone.split('\t") [1] 

link = link.replace('\n','') 

link list.append (link) 


start = time.time() 
def crawler (index) : 
Process id = 'Process-' + str (index) 
while not workQueue.empty(): 
url = workQueue.get (timeout-2) 
try: 


r = requests.get(url, timeout-20) 

print (Process id, workQueue.qsize(), r.status code,url) 
except Exception as e: 

print (Process id, workQueue.qsize(), url, 'Error:', e) 


def boss): 
for url in link list: 
workQueue.put nowait (url) 


if name == ' main ': 
workQueue = Queue (1000) 


gevent.spawn (boss) .join() 
jobs = [] 
for i in range(10): 
jobs .append (gevent.spawn (crawler, i)) 
gevent.joinall (jobs) 


end = time.time() 
print ('gevent + Queue 多 协 程 肘 虫 的 总 时 间 为 : ', end-start) 
print ('Main Ended! ') 


在 上 述 代 码 中 ， 我 们 首先 使 用 了 : 


from gevent import monkey 
monkey.patch all() 


JXEERILASCHUETRBESJTAZSEJJ, URLS), BANNERER ARIN. geventj&rRBSmonkey8EIBuISEGI OFREBS BIR Etico, lOBAA RAHA, 


我 们 还 是 用 Queue 创 建 队 列 ， 但 是 在 gevent 中 需要 使 用 : 


gevent.spawn (boss) .join () 


将 队列 中 加 入 的 内 容 整合 到 gevent 中 。 接 下 来 使 用 如 下 代码 创建 多 协 程 的 聆 虫 程序 : 


jobs = [] 

for i in range(10): 
jobs.append(gevent.spawn(crawler, i)) 

gevent.joinall (jobs) 


if; HAS, TAMAS OME, TERRES EARNE, SUSIE RRR AA LIE. BENNER: 
Process-0990200 http://www.baidu.com 

Process-9989200 http://www.jd.com 

Process- 1988200 http://www.qq.com 

Process-8987200 http://www.daum.net 


Process- 7986200 http://www.sina.com.cn 


Process-5985200 http://www.sohu.com 


Process-1984200 http://www.aliexpress.com 


8.5 I 


1. 回 顾 多 线程 、 多 进程 、 多 协 程 
首先 回顾 一 下 本 节 几 个 重要 概念 。 


并 上 用 (concurrency) 和 并 行 (parallelism) : 并 发 是 指 在 一 个 时 间 段 发 生 兰 干事 件 的 情况 。 并 行 是 指 在 同一 时 刻 发 生 震 干事 件 的 情况 。 


同步 是 指 并 发 或 并 行 的 各 个 任务 不 是 独自 运行 的 ， 任 务 之 间 有 一 定 的 交替 顺序， 可 能 在 执行 完 一 个 任务 并 得 到 结果 后 ， 另 一 个 任务 才 会 开始 运行 。 


异步 则 是 并 发 或 并 行 的 各 个 任务 可 以 独立 运行 ， 一 个 任务 的 运行 不 受 另 一 个 影响 。 


等 待 下 载 


图 8-1 多 线程 的 执行 方式 
为 了 更 好 地 理解 多 线程 、 多 进程 和 多 协 程 ， 下 面 给 出 其 区 别 。 


图 8-1 所 示 为 多 线程 的 执行 方式 ， 程 序 的 执行 是 在 不 同 线程 之 间 切 换 的 。 当 一 个 线程 等 待 网 页 下载 时 ， 进 程 可 以 切换 到 其 他 线程 执行 。 


图 8-2 所 示 为 多 进程 的 执行 方式 ， 程 序 的 执行 是 并 行 、 异 步 的 ， 多 个 线程 可 以 在 同一 时 刻 发 生 若干 事件 。 这 里 一 个 进程 只 有 一 个 线程 ， 那 么 可 不 可 以 在 多 进程 中 的 一 个 进程 运行 


的 。 在 多 进程 中 运行 多 线程 的 方法 可 以 自行 学 习 。 


多 个 线程 呢 ? 答 


=| 
XE 


进程 #1 多 进程 进程 #2 
(CPU 内 核 1) (CPU 内 核 2) 


请 求 网 页 1 


图 8-2 ”多 进程 的 执行 方式 


图 8-3 所 示 为 多 协 程 的 执行 方式 。 协 程 是 一 种 用 户 态 的 轻 量 级 线程 ， 在 程序 级 别 来 模拟 系统 级 别 用 的 进程 。 在 一 个 进程 中 ， 一 个 线程 通过 程序 的 模拟 方法 实现 高 并 发 。 


图 8-3 ”多 协 程 的 执行 方式 


2. 性 能 对 比 


为 了 进一步 理解 多 线程 、 多 进程 、 多 协 程 对 于 抓 取 时 间 的 影响 ， 我 们 对 于 使 用 不 同方 式 所 花费 的 时 间 进 行 了 对 比 ， 如 表 8-1 所 示 。 


表 8-1 多 线程 、 多 进程 、 多 协 程 的 对 比 


程序 线程 数 进程 数 协 程 数 By le) CED) 与 串 行 时 间 的 百分比 
FEN 
31% 
| 
as | 
] 


FEN 338.34 


可 以 看 到 ， 多 线程 、 多 进程 和 多 协 程 所 需要 的 时 间 明 显 少 于 串 行 。 在 多 线程 和 多 进程 中 ，3 个 线程 或 3 个 进程 所 花 的 时 间 基 本 上 是 串 行 的 1/3。 而 当 线 程 或 进程 数 增多 的 时 候 ， 在 数量 为 10 的 情况 下 ， 多 
进程 仅 用 了 8% 的 时 间 ， 多 线程 用 了 18% 的 时 间 。 新 增 的 线程 能 够 加 快 下 载 速度 ， 但 是 相对 于 之 前 添加 的 线程 效果 会 越 来 越 不 明显 。 


143.38 
922.81 


] 
] 
] 
] 
] 


其 实 ， 前 面 也 有 说 过 Python 在 多 线程 中 的 GIL 锁 机 制 ， 因 为 某 个 进程 需要 在 更 多 线程 之 间 切 换 ， 所 以 就 会 浪费 很 多 时 间 。 而 多 进程 是 调集 CPU 的 多 个 进程 进行 工作 ，10 个 进程 的 性 能 是 串 行 的 10 多 倍 。 


多 协 程 由 于 是 在 单线 程 上 模拟 的 并 发 编程 ， 因 此 从 串 行 到 3 个 协 程 ， 再 添加 到 10 个 协 程 ， 它 在 性 能 上 并 没有 多 线程 和 多 进程 那么 好 。 除 此 之 外 ， 由 于 带宽 的 限制 ， 新 添加 的 协 程 并 不 会 带 来 更 快 的 速 
度 。 
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现实 世界 的 网 络 爬 虫 程序 并 不 像 之 前 介绍 的 爬 取 博客 那么 简单 ， 运 行 不 如 意 者 十 有 八 九 。 首 先 需要 理解 一 下 “ 反 有 爬虫 ”这 个 概念 ， 其 实 就 是 “反对 爬虫 ”。 根 据 网 络 上 的 定义 ， 网 络 爬 虫 为 使 用 任何 技 
术 手 段 批 量 获取 网 站 信息 的 一 种 方式 。“ 反 爬虫 ”就 是 使 用 任何 技术 手段 阻止 批量 获取 网 站 信息 的 一 种 方式 。 


本 章 主要 介绍 反 爬 虫 问题 ， 包 括 网 站 对 爬虫 实施 限制 封锁 的 原因 和 人 怜 虫 程序 如 何 解 决 这 个 问题 。 


9.1. JA STE 


XSF “MEFs EFIE Re aA EAA Rin, BZ Kua "Bem" BEI. 
那么 ， 网 站 为 什么 要 “反扑 虫 ” 呢 ? 


第 一 ， 网 络 代 虫 浪费 网 站 的 流量 ， 也 就 是 浪费 钱 。 有 息 虫 对 于 一 个 网 站 来 说 并 不 算是 真正 用 户 的 流量 ， 而 县 往往 能 够 不 知 疲倦 地 有 息 取 网 站 。 更 有 其 者 ， 使 用 分 布 式 的 多 台 机 器 息 虫 ， 造 成 网 站 浏览 量 增 
， 浪 费 网 站 流量 。 


anl 


第 二 ， 数 据 是 每 家 公司 非常 宝贵 的 资源 。 在 大 数据 时 代 ， 数 据 的 价值 越 来 越 突 出 ， 很 多 公司 都 把 它 作为 自己 的 战略 资源 。 由 于 数据 都 是 公开 在 互联 网 上 的 ， 如 果 竞 争 对 手 能 够 轻易 获取 数据 ， 并 使 用 这 
些 数 据 采 取 针 对 性 的 策略 ， 长 此 以 往 ， 就 会 导致 公司 竞争 力 的 下 降 。 


因此 ， 有 实力 的 大 公司 便 开始 利用 技术 进行 反 胞 虫 ， 如 淘宝 、 京 东 、 携 程 等 。 反 有 息 虫 是 指使 用 任何 技术 手段 阻止 别人 批量 获取 自己 网 站 信息 的 一 种 方式 .。 


再 次 特地 声明 ， 大 家 在 获取 数据 时 一 定 要 有 节制 、 有 节操 地 拒 虫 。 本 书 中 的 候 虫 也 仅 用 于 学 习 、 研 究 用 途 ， 请 不 要 用 于 非法 用 途 ， 任 何 由 此 引发 的 法 律 纠纷 请 自行 负责 。 


9.2 RGRAY Sree 


FEMA "Bem" AUER, THRE ZS), AAE FSI HRS ERU OZ HERI, CESCERRSIE RE PSSA SMa, ALARA RB. 
(1) 不 返回 网 页 ， 如 不 返回 内 容 和 延迟 网 页 返回 时 间 。 
(2) 返回 数据 非 目标 网 页 ， 如 返回 错误 页 、 返 回 空白 页 和 怜 取 多 页 时 均 返 回 同一 页 。 


(3) 增加 获取 数据 的 难度 ， 如 登录 才 可 查看 和 登录 时 设置 验证 码 。 


9.2.1 不 返回 网 页 


不 返回 网 页 是 比较 传统 的 反 息 虫 手 段 ， 也 就 是 在 息 虫 发 送 请 求 给 相应 网 站 地 址 后 ， 网 站 返回 404 页 面 ， 表 示 服 务 器 无 法 正常 提供 信息 或 服务 器 无 法 回应 ; 网 站 也 可 能 长 时 间 不 返回 数据 ， 这 代表 对 把 虫 


已 经 进行 了 封杀 。 


首先 ， 网 站 会 通过 IP 访问 量 反 乳 虫 。 因 为 正常 人 使 用 浏览 器 访问 网 站 的 速度 是 很 慢 的 ， 不 太 可 能 一 分 钟 访问 100 个 网 页 ， 所 以 通常 网 站 会 对 访问 进行 统计 ， 如 果 单 个 IP 的 访问 量 超过 了 某 个 阅 值 ， 就 会 进 
行 封 杀 或 要 求 输 入 验证 码 。 


其 次 ， 网 站 会 通过 session 访 问 量 反 疏 虫 。session 的 意思 “会 话 控制 ”，session 对 象 存 储 特 定 用 户 会 话 所 需 的 属性 和 配置 信息 。 这 样 ， 当 用 户 在 应 用 程序 的 Web 页 之 间 跳 转 时 ， 人 存储 在 session 对 象 中 
量 将 不 会 丢失 ， 而 是 在 整个 用 户 会 话 中 一 直 存 在 下 去 。 如 果 一 个 session 的 访问 量 过 大 ， 就 会 进行 封杀 或 要 求 输入 验证 码 。 


此 外 ， 网 站 也 会 通过 User-Agent 反 爬虫 。User-Agent 表 示 浏 览 器 在 发 送 请 求 时 ， 附 带 当前 浏览 器 和 当前 系统 环境 的 参数 给 服务 器 ， 我 们 可 以 在 Chrome 浏 览 器 的 审查 元 素 中 找到 。 图 9-1 所 示 为 
Windows 系 统 使 用 Chrome 访 问 百度 首页 的 请 求 头 。 


Request Headers /iew source 


Accept: text/html,application/xhtml+xml, application/xml;q=0.9,image/webp, */*;q=0.8 
Accept-Encoding: gzip, deflate, sdch, br 


Accept-Language: zh-CN,zh;q=8.8,en;q=@.6, zh-TW;q=0.4 

Cache-Control: max-age-e 

Connection: keep-alive 

Cookie: BAIDUID=9C64C688C8AFG@ESAC8415CA17E78B8A8:FG=1; BIDUPSIDs9C64C688C8AF0E5AC8415CA17b78B8A8; PSTM=1489647335; BD_HOME=0; 
Host: www. baidu.com 

Upgrade-Insecure-Requests: 1 

User-Agent: Mozilla/5.@ (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36 


图 9-1 使 用 Chrome 访 问 百度 首页 的 请 求 头 


当 我 们 使 用 Requests 库 进行 他 虫 的 时 候 ， 默 认 的 User-Agent 为 python-requests/2.8.1 (后 面 的 版 本 号 可 能 不 同 ) 。 当 服务 器 判断 这 个 不 是 真正 的 浏览 器 时 会 予以 封锁 ， 或 者 当 单个 User-Agent 的 访问 
超过 阅 值 的 时 候 予 以 封锁 ， 但 是 这 样 会 误伤 正常 用 户 ， 可 谓 伤 敌 一 干 ， 自 损 八 百 。 


9.2.2 ”返回 非 目 标 网 页 


除了 不 返回 网 页 外 ， 还 有 有 拒 虫 返回 非 目 标 网 页 ， 也 就 是 网 站 会 返回 假 数据 ， 如 返回 空白 页 或 他 取 多 页 的 时 候 返 回 了 同一 页 。 当 你 的 候 虫 顺利 地 运行 起 来 ， 你 开 开 心心 地 去 做 其 他 事情 了 ， 结 果 半 个 小 时 
之 后 发 现代 取 的 每 一 页 的 结果 都 是 一 样 的 ， 这 就 是 获取 了 假 的 网 站 。 


例如 在 去 哪儿 网 的 机 票 价 格 页 面 ， 网 上 标注 的 价格 居然 和 html 源 码 不 一 样 。 例 如 图 9-2 里 网 上 标注 的 价格 是 530 元 ， 但 是 html 源 码 中 的 机 票 价格 是 538 元 。 
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图 9-2 ”去 哪儿 机 票 价格 
这 样 的 方式 除了 去 哪儿 网 ， 在 猫眼 电影 和 斗 鱼 直播 中 都 有 使 用 ， 胞 取 下 来 的 数字 和 真实 的 数字 会 不 一 样 。 


除 此 之 外 ， 例 如 在 大 众 点 评 中 ， 呈 现 的 部 分 文字 和 数字 会 使 用 SVG 矢量 图 来 进行 蔡 代 ， 用 不 同 的 偏 移 量 显示 不 同 的 字符 。 如 图 9-3 所 示 ， 如 果 使 用 爬虫 直接 过 去 评论 的 文字 ， 会 漏 掉 很 多 文字 。 
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Wiese Ma , (BESIDES ARH SONA , REALE S OLA. ToS CEPHELTIESUSER),tz 
进去 ， 吃 完 就 所 上 走 了 。 这 一 点 有 个 好 的 印象 。 
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图 9-3 大众 点 评 文字 替代 


9.2.3 ”获取 数据 变 难 


网 站 也 会 通过 增加 获取 数据 的 难度 反 胞 虫 ， 一 般 登 录 才 可 以 查看 数据 ， 而 且 会 设置 验证 码 。 为 了 限制 他 虫 ， 无 论 你 是 否 是 真正 的 用 户 ， 网 站 都 可 能 会 要 求 你 登录 并 输入 验证 码 才 能 访问 。 例 如 ，12306 
为 了 限制 自动 抢 票 就 采用 了 严格 的 验证 码 功能 ， 需 要 用 户 在 8 张 图 片 中 选择 正确 的 选项 ， 如 图 9-4 所 示 。 


点 击 下 图 中 所 有 的 AA O 刷新 


图 9-4 图片 验证 码 


9.3 ”如 何 “ 反 反 乳 虫 " 
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9.3.1 ”修改 请 求 头 


对 于 9.2.1 小 节 中 使 用 User-Agent 反 爬虫 的 方法 ， 我 们 可 以 修改 请 求 头 ， 从 而 实现 顺利 获取 网 页 的 目的 。 


如 果 不 修改 请 求 头 ，header 就 会 是 python-requests/2.12.4。 


import requests 
r = requests.get('http://www.santostang.com!') 
print (r.request.headers) 


结果 是 : {'User-Agent':' python-requests/2.12.4','Accept-Encoding':'gzip,deflate','Accept':'*/*','Connection':'keep-alive’}, 
简单 的 方法 需要 把 请 求 头 改 成 真正 浏览 器 的 格式 ， 例 如 : 


import requests 


link = 'http://www.santostang.com' 

headers = {'User-Agent' : 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'} 
r = requests.get (link, headers- headers) 

print (r.request.headers) 


运行 上 述 代码 ， 得 到 的 结果 是 : 
(User-Agent':'Mozilla/5.0(Windows;U;Windows NT 6.1;en-US;rv:1.9.1.6)Gecko/20091201 Firefox/3.5.6','Accept-Encoding":'gzip,deflate','Accept':'*/*''Connection':;keep-alive') 
可 以 看 到 ，header 已 经 变 成 使 用 浏览 器 的 header。 


此 外 ， 我 们 也 可 以 做 一 个 User-Agent 的 池 ， 并 且 随 机 切换 User-Agent。 但 是 在 实际 息 虫 中 ， 针 对 某 个 User-Agent 的 访问 量 进行 封锁 的 网 站 比较 少 ， 所 以 只 将 User-Agent 设 置 为 正常 的 浏览 器 User- 
Agent 就 可 以 了 。 


这 里 介绍 一 个 Python 的 库 fake-useragent， 可 以 容易 地 切换 User-Agent。fake-useragent 也 可 以 使 用 pip 安 装 : 


pip install fake-useragent 


安装 完 fake-useragent， 就 可 以 用 来 更 换 user agent 了 ， 代 码 如 下 : 


from fake useragent import UserAgent 
import requests 


link = 'http://www.santostang.com' 
ua-UserAgent () 
headers={"User-Agent":ua. random} 
response=requests.get (url=url, headers=headers) 


# 响 应 状态 信息 
print (response.status code) 
print (r.request.headers) 


这 里 可 以 使 用 ua.random 实 现 随机 变换 headers， 每 一 次 都 会 生成 不 一 样 的 伪装 请 求 头 。 


除了 User-Agent， 我 们 还 需要 在 header 中 写 上 Host 和 Referer。 在 第 3 章 3.3.2 小 节 中 已 经 介绍 过 定制 请 求 头 的 方法 ， 此 处 不 再 袭 述 。 


9.3.2 ”修改 聆 虫 的 间 隅 时 间 


如 果 有 息 虫 运行 得 太 过 频密 ， 一 方面 对 网 站 的 浏览 极 不 友好 ， 另 一 方面 十 分 容易 招致 网 站 的 反 肥 虫 。 因 此 ， 当 你 运行 候 虫 程序 的 时 人 息 ， 两 次 访问 之 间 一 定 要 设置 间隔 时 间 。 


我 们 可 以 使 用 time 库 在 息 虫 访问 之 间 设 置 一 定 的 间隔 时 间 ， 代 码 如 下 : 


import time 

tl = time.time() 
time.sleep (2) 

t2 = time.time() 
total time = t2-tl 
print (total time) 


运行 代码 ， 得 到 的 结果 是 : 2.0001144409179688。 你 的 结果 可 能 与 这 个 结果 不 一 样 ， 但 是 应 该 约 等 于 2 秒 。 也 就 是 说 ， 可 以 使 用 time.sleep(2) 让 程序 休息 2 秒 钟 ， 括 号 中 间 的 数字 代表 秒 数 。 


如 果 使 用 一 个 固定 的 数字 作为 时 间 间 隔 ， 就 可 能 使 胞 虫 不 太 像 正常 用 户 的 行为 ， 因 为 真正 用 户 访问 不 太 可 能 出 现 如 此 精准 的 秒 数 间 隔 。 所 以 还 可 以 使 用 Python 的 random 库 进行 随机 数 设 置 ， 代 码 如 
下 : 


import time 
import random 


sleep time = random.randint(0,2) + random.random() 
print (sleep time) 
time.sleep(sleep time) 


运行 代码 ， 得 到 的 结果 是 : 1.3282118582158329。 你 的 结果 可 能 与 这 个 结果 不 一 样 ， 但 是 应 该 在 0 秒 到 3 秒 之 间 。 这 里 random.randint(0,2) 的 结果 是 0、1 或 2， 而 random.random(0 是 一 个 0~ 1 的 随机 
数 。 这 样 获得 的 时 间 非 常 随 机 ， 更 像 用 户 的 行为 。 


如 果 把 怜 虫 程序 和 时 间 间 隔 结合 在 一 起 ， 就 可 以 在 两 次 聆 虫 中 添加 一 定 的 时 间 间 隔 ， 例 如 : 


import requests 

from bs4 import BeautifulSoup 
import time 

import random 


link = "http://www.santostang.com/" 


def scrap (link): 
headers = ('User-Agent' : 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'} 
r — requests.get(link, headers- headers) 
html = r.text 
soup = BeautifulSoup(html, "lxml") 
return soup 


soup = scrap (link) 
title list = soup.find all("h1l", class ="post-title") 
for eachone in title list: 

url = eachone.a['href'] 

print (FARER: ', url) 

soup article = scrap (url) 

title = soup article.find("hl", class -"view-title").text.strip() 
print (' 这 篇 博客 的 标题 为 : ', title) i 
Sleep time = random.randint(0,2) + random.random() 
print (' 开 始 休息 : ', sleep time, '#') 
time.sleep(sleep time) 


在 上 述 代 码 中 ，scrap(link) 函 数 用 来 获取 其 个 网 页 的 代码 ， 首 先 获取 主页 所 有 博客 文章 的 链接 ， 然 后 使 用 random.randint(0,2)+random.random0 和 time.sleep(sleep_time) 以 间隔 0 秒 到 3 秒 的 方式 中 


取 这 些 文 章 。 


运行 上 述 代码 ， 得 到 的 部 分 结果 是 : 


Hi 


FARAS: http://www.santostang.com/2017/03/08/hello-python/ 
这 篇 博客 的 标题 为 : Hello Python! 
开始 休息 : 0.16292490492777212 秒 


在 实践 过 程 中 ， 如 果 每 次 聆 取 都 间隔 0~ 3 秒 ， 也 不 太 像 真实 的 访问 。 因 为 我 们 浏览 一 个 网 站 一 定 的 时 间 后 可 能 会 浏览 其 他 网 站 ， 然 后 过 一 段 时 间 继续 回来 浏览 。 因 此 ， 可 以 在 爬 取 一 定 页 数 后 休息 更 长 
的 时 间 。 例 如 ， 可 以 设置 每 他 取 5 次 数据 休息 10 秒 。 


scrap times = 0 

for eachone in title list: 
url = eachone.a['href'] 
print ('" 开 始 疏 取 这 篇 博客 : ', url) 
soup article = scrap (url) 
title = soup article.find("hl", class -"view-title").text.strip() 
print (' 这 篇 博客 的 标题 为 : ', title) 


scrap times += 1 


if scrap times $ 5 == 0: 

sleep time = 10 + random.random() 
else: i 
sleep time = random.randint(0,2) + random.random() 
time.sleep(sleep time) 

print (' 开 始 休 息 : ', sleep time, 'fb') 


9.3.3 ”使 用 代理 


=] 


代理 (Proxy) 是 一 种 特殊 的 网 络 服务 ， 人 允许 一 个 网 络 终端 (一 般 为 客户 端 ) 通过 这 个 服务 与 另 一 个 网 络 终端 (一 般 为 服务 器 ) 进行 非 直接 的 连接 。 形 象 地 说 ， 代 理 就 是 网 络 信息 的 中 转 站 。 代 理 服务 器 
就 像 一 个 大 的 缓冲 区 ， 这 样 能 够 显著 提高 浏览 速度 和 效率 。 

举 一 个 简单 的 例子 ， 如 果 访 问 国外 某 个 网 站 时 速度 很 慢 ， 就 可 以 用 国内 某 个 代理 服务 器 作为 中 转 ， 你 的 计算 机 再 通过 代理 服务 器 请 求 访问 这 个 网 站 。 数 据 先 从 国外 某 个 网 站 传 到 国外 的 代理 服务 器 ， 再 
传 到 你 的 计算 机 ， 由 于 这 两 步 数据 的 传输 较 快 ， 因 此 访问 速度 就 变 快 了 ， 如 图 9-5 所 示 。 
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图 9-5 ”使 用 代理 服务 器 访问 国外 的 资源 


我 们 也 可 以 维护 一 个 代理 IP 池 ， 从 而 让 拒 虫 程序 隐藏 自己 的 真实 IP。 网 上 有 很 多 免费 的 代理 IP， 良 鞠 不 齐 ， 可 以 通过 筛选 找到 能 用 的 。 但 是 代理 IP 池 维护 起 来 很 麻烦 ， 而 且 十 分 不 稳定 。 以 下 是 使 用 代 
理 IP 获 取 网 页 的 方法 : 


import requests 


link = "http://www.santostang.com/" 
proxies = ('http':'http://XXX.XXX.XXX.XXX:XXXX!] 
response = requests.get(link, proxies-proxies) 


由 于 代理 IP 很 不 稳定 ， 这 里 就 不 放出 代理 IP 的 地 址 了 。 其 实 不 推荐 使 用 代理 IP 方 法 ， 主 要 原因 有 两 个 方面 : 一 方面 ， 虽 然 网 络 上 有 很 多 免费 的 代理 IP， 但 是 都 很 不 稳定 ， 可 能 一 两 分 钟 就 失效 了 ; 另 一 
方面 ， 通 过 代理 IP 的 服务 器 请 求 他 取 速 度 很 慢 。 


对 于 使 用 代理 IP 感 兴趣 的 读者 ， 可 以 查找 一 些 “Python 疏 虫 代理 池 ” 的 文章 学 习 。 


9.3.4 更换 IP 地 址 


前 面 说 过 网 站 会 通过 IP 访 问 量 反 有 息 虫 ， 这 是 大 多 数 网 站 反 肛 虫 的 主要 方法 ， 针 对 这 样 的 反 肥 虫 方 法 ， 可 以 使 用 更 换 IP 地 址 的 方法 来 解决 。 更 换 IP 地 址 的 方法 主要 有 两 种 : 一 种 是 通过 动态 IP 拨 号 服务 器 
更 换 IP， 另 一 种 是 通过 Tor 代 理 服 务 器 的 方法 。 这 两 种 方法 将 在 第 12 章 详细 介绍 。 


9.3.5 ”登录 获取 数据 


如 果 你 胞 取 过 一 些 网 站 ， 会 发 现代 虫 运 行 一 段 时 间 后 ， 网 站 会 弹出 来 一 个 页 面 要 求 登 录 ， 或 者 弹出 一 个 验证 码 要 求 填写 验证 码 。 这 是 因为 网 站 检测 到 这 个 访问 不 太 像 用 户 的 行为 ， 所 以 登录 网 站 之 后 再 
进行 胞 取 ， 网 站 会 比较 少 阻挡 ， 所 以 可 以 登录 之 后 再 胞 取 数 据 。 这 种 方法 会 将 第 12 章 详细 介绍 。 
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第 10 章 ”解决 中 文 乱码 


如 果 你 经 常 使 用 Python 编程 ， 或 者 在 前 面 的 章节 中 已 经 多 次 使 用 Python 练习 网 络 爬 下 技术 ， 就 不 可 避免 地 会 遇 到 中 文 乱码 的 问题 。 中 文 乱码 问题 经 常 难以 解决 ， 或 者 治标 不 治本 ， 本 章 就 来 解决 这 一 难 


本 章 主要 介绍 什么 是 字符 编码 、Python 的 字符 编码 是 什么 以 及 如 何 解决 Python 中 文 乱码 的 问题 。 


如 果 你 已 经 使 用 Python 编程 了 一 段 时 间 ， 就 会 帮 现 Python 的 字符 编码 真是 一 件 令 人 头痛 的 事情 。 

特别 是 当 程序 在 运行 的 时 候 ， 突 然 冒 出 一 个 错误 : 

ValueError:Expected a bytes object,not a unicode object 

或 者 在 使 用 print 打 印 结果 的 时 候 ， 突 然 冒 出 一 个 错误 : 

UnicodeDecodeError:'cp950'codec can't decode byte 0x96 in position 10:illegal multibyte sequence 


这 时 ， 你 可 能 马上 使 用 百度 或 谷歌 搜索 解决 方法 ， 但 是 根据 网 上 的 方法 即使 解决 了 错误 ， 但 是 很 可 能 不 知道 为 什么 这 个 方法 能 够 解决 这 个 错误 。 这 也 是 笔者 之 前 经 常 遇 到 的 问题 ， 接 下 来 就 为 读者 介绍 
这 些 错 误 为 什么 发 生 ， 并 提供 解决 方案 ， 让 你 不 再 有 此 烦恼 。 


首先 ， 从 字符 串 编码 说 起 ， 无 论 是 Python 2 还 是 Python 3， 总 体 上 说 ， 字 符 串 的 编码 只 有 两 大 类 : 
(1) 通用 的 Unicode 编 码 。 

(2) 将 Unicode 转 化 成 的 某 种 类 型 的 编码 ， 如 UTF-8、GBK 等 。 

介绍 Unicode 编 码 前 ， 先 来 了 解 计算 机 编程 的 历史 。 


由 于 计算 机 只 能 处 理 数 字 ， 因 此 处 理 文本 时 必须 先 转换 为 数字 才 行 。 最 早 的 计算 机 在 设计 时 采用 8 比特 (bit) 作为 一 个 字 节 (byte) ， 而 计算 机 采用 二 进 制 ， 所 以 一 个 字 节 可 以 表示 256 种 不 同 的 状态 ， 
每 一 个 状态 对 应 一 个 符号 ， 就 是 256 个 符号 ， 从 0000000 到 11111111。 


美国 人 发 明了 计算 机 ， 同 时 制定 了 编码 ， 以 对 应 英文 字符 和 二 进 制 数字 之 间 的 关系 。 这 种 编码 被 称 为 ASCII 码 。ASCII 码 一 共 规定 了 128 个 字符 的 编码 ， 比 如 大 写字 母 A 是 65、 二 进 制 为 01000001。 


其 实 ， 这 128 个 字符 表示 英文 绰绰有余 ， 但 是 中 文 有 超过 10 万 个 汉字 ， 一 个 字 节 只 能 表示 256 种 符号 ， 显 然 是 不 够 的 。 所 以 ， 中 国 使 用 GB2312 作 为 简体 中 文 常见 的 编码 方式 ， 两 个 字 节 表示 一 个 汉字 ， 
理论 上 最 多 可 以 表示 256x256=65536 个 符号 。 除 了 中 国 以 外 ， 其 他 国家 也 纷纷 制定 了 自己 的 编码 来 表示 本 国 的 文字 ， 如 日 文 用 的 是 Shift_Jls。 这 样 造 成 的 结果 是 ， 同 一 个 字符 可 能 会 在 不 同 国家 /地 区 的 编 
码 体 系 中 代表 不 一 样 的 文字 。 例 如 ，130 在 法 语 编码 中 代表 6， 在 希 伯 来 语 编码 中 却 代表 字母 5mel 0)。 因 此 ， 在 多 语言 的 文本 中 可 能 会 出 现 乱码 。 


为 了 让 各 国 / 地 区 能 够 跨 语言 、 跨 平台 进行 文本 转换 与 处 理 ，Unicode 被 创造 了 出 来 。 


Unicode 被 称 为 统一 码 、 万 国 码 或 单一 码 。 也 就 是 说 ， 它 为 每 种 语言 中 的 每 个 字符 设 定 了 统一 并 且 唯 一 的 二 进 制 编码 ， 大 概 包 含 100 多 万 个 符号 。 


Unicode 和 ASCII 的 区 别 是 什么 呢 ?Unicode 编 码 通常 是 两 个 字 节 ， 而 ASClIl 是 一 个 字 节 。 例 如 ， 字 和 母 A 的 ASCIl 编 码 为 01000001，Unicode 编 码 为 0000000001000001， 其 实 英文 字母 ASCIl 编 码 转 成 
Unicode 编 码 就 是 在 前 面 加 0。 


既然 Unicode 已 经 包含 所 有 符号 了 ， 为 什么 Unicode 还 会 被 编码 呢 ? 


因为 在 ASCIll 中 ， 英 文字 母 只 用 一 个 字 节 表示 就 够 了 ， 但 是 用 Unicode 编 码 写 英文 的 每 个 符号 用 两 个 字 节 ， 因 此 要 将 其 中 一 个 字 节 全 部 用 0 表示 。 这 样 存储 造成 极 大 的 浪费 ， 比 ASCIl 多 了 一 售 的 存储 空 
间 。 


为 了 节省 空间 ， 开 发 了 一 些 中 间 格 式 的 字符 集 ， 被 称 为 通用 转换 格式 Unicode Transformation Format (UTF) ， 常 见 的 有 UTF-8 和 UTF-16。 


随 着 互联 网 的 普及 ， 强 烈 要求 出 现 一 种 统一 的 编码 方式 ，UTF-8 就 是 在 互联 网 上 使 用 最 广 的 一 种 Unicode 的 实现 方式 。UTF-8 最 大 的 一 个 特点 是 长 度 可 变 ， 它 可 以 使 用 1~4 个 字 节 表示 一 个 符号 ， 英 文字 
母 通 常 被 编 为 1 个 字 节 ， 汉 字 通 常 被 编 为 3 个 字 节 ， 如 表 10-1 所 示 。 


表 10-1 英文 字母 A 和 汉字 中 的 编码 对 昭 


ASCI | Unicode UTF-8 


01000001 | 00000000 01000001 01000001 
中 | | 01001110 00101101 11100100 10111000 10101101 


对 于 UTF-8 编 码 ， 怎 么 知道 什么 时 候 是 1 个 字 节 ， 什 么 时 候 是 3 个 字 节 呢 ? 


其 实 ，UTF-8 的 编码 规则 很 简单 ， 只 有 两 条 : 
(1) 对 于 单字 节 的 符号 ， 字 节 的 第 1 位 设 为 0%， 后 面 7 位 为 这 个 符号 的 Unicode 码 。 因 此 对 于 英语 字母 ，UTF-8 编 码 和 ASCII 码 是 相同 的 。 
(2) 对 于 n 字 节 的 符号 (n>1) ， 第 1 个 字 节 的 前 n 位 都 设 为 1， 第 n+1 位 设 为 0， 后 面 字 节 的 前 两 位 一 律 设 为 10， 剩 下 的 没有 提 及 的 二 进 制 位 全 部 为 这 个 符号 的 Unicode 码 。 


例如 ， 上 述 字符 A 为 单字 节 符 号 ， 其 UTF-8 编 码 字 节 的 第 1 位 是 0。 而 汉字 “中 ”为 3 个 字 节 符号 : 第 1 个 字 节 的 前 3 位 都 设 为 1， 第 1 个 字 节 的 第 4 位 为 0， 后 面 字 节 的 前 两 位 全 为 10。 


10.2 ”Python 的 字符 编码 


明白 了 Unicode 和 UTF-8 的 区 别 和 关系 后 ， 再 来 看 看 Python 的 编码 方式 。 在 Python 3 中 ， 字 符 串 的 编码 使 用 str 和 bytes 两 种 类 型 。 
(1) str 字 符 串 : 使 用 Unicode 编 码 。 
(2) bytes 字 符 串 : 使 用 将 Unicode 转 化 成 的 某 种 类 型 的 编码 ， 如 UTF-8、GBK。 


在 Python 3 中 ， 字 符 串 默认 的 编码 为 Unicode， 所 以 基本 上 出 现 的 问题 比较 少 。 而 Python 2 相对 Python 3 来 说 ， 由 于 字符 串 默认 使 用 将 Unicode 转 化 成 的 某 种 类 型 的 编码 ， 可 以 采用 的 编码 比较 多 ， 
此 使 用 过 程 中 经 常 遇 到 编码 问题 ， 为 用 户 带 来 很 多 烦恼 。 


本 书 使 用 Python 3 作为 编程 语言 ， 为 了 让 大 家 更 容易 理解 ， 后 面 仪 讨论 Python 3 的 中 文 编码 。 


Python 的 默认 编码 如 下 : 


In [1] :strl = "我 们 " 
print (str1) 
print (type (str1)) 


我 们 

<class'str'> 

可 以 看 出 ，Python 3 的 字符 串 默 认 编码 为 str， 也 就 是 使 用 Unicode 编 码 。 
encode 和 decode 


这 些 默 认 的 st 字符 串 怎么 转化 成 bytes 字 符 串 呢 ? 


这 里 就 要 用 到 encode 和 decode 了 。encode 的 作用 是 将 Unicode 编 码 转换 成 其 他 编码 的 字符 串 ， 而 decode 的 作用 是 将 其 他 编码 的 字符 串 转 换 成 Unicode 编 码 ， 如 图 10-1 所 示 。 


strencode(‘utf-8') ( 


=. 
E 


str.decode('utf-8') 


str = “我 们 ' 
UTF-8 编 码 


str = ‘我们 | 
Ef. UnicodeZks R3 


图 10-1 encode 5 decode 2% 45 8 $2 4% 


图 10-1 所 示 为 Unicode 和 UTF-8 之 间 编 码 转换 的 例子 ， 代 码 实现 如 下 : 


In [2]:strl = "我 们 " 

str utf8 = strl.encode('utf-8') 
print (str utf8) 

print (type(str utf8)) 


b'\xe6\x88\x91\xe4\xbb\xac' 
<class'bytes'> 


这 里 的 str_utf8 已 经 为 UTF-8 编 码 了 ， 中 文字 符 转换 后 ，1 个 Unicode 字 符 将 变 为 3 个 UTF-8 字 符 ，\xe6 就 是 其 中 一 个 字 节 ， 因 为 它 的 值 是 230， 没 有 对 应 的 字母 可 以 显示 ， 所 以 以 十 六 进 制 显示 字 节 的 数 


值 。\xe6\x88\x91 三 个 字 节 代表 “我 ” 字 ，\Xxe4\xbb\xac 三 个 字 节 代表 “ 们 ” 字 ， 代 码 实 现 如 下 : 


o 


In [3]:str decode - strl.encode('utf-8').decode('utf-8') 
print (str decode) 
print (type(str decode)) 


我 们 
< class'str'» 


再 用 decode 可 以 把 用 UTF-8 编 码 的 字符 串 解 码 为 Unicode 编 码 。 要 编码 成 其 他 类 型 的 编码 时 ， 也 可 以 用 encode， 如 GBK。 如 果 想 要 查看 具体 的 编码 类 型 ， 那 么 可 以 用 到 chardet， 代 码 实现 如 下 : 


In [4]:import chardet 
str gbk = "我 们 " .encode ('gbk') 
chardet.detect (str gbk) 


{‘confidence':0.8095977270813678, 


‘encoding':'TIS-620'} 


如 果 你 脑 洞 大 开 ， 或 许 会 问 这 样 一 个 问题 : Unicode 还 可 以 decode 吗 ?显示 结果 如 下 : 


In [5]:str unicode decode = "我 们 ".decode () 


AttributeError 

Traceback(most recent call last) 
«ipython-input-5-0402a0b683b7» 
in«module»() 

---->1 str unicode decode- 

"我 们 ".decode() 

AttributeError:'str'object has no ttribute'decode' 


已 经 被 编码 的 UTF-8 还 可 以 再 encode 吗 ? 显示 结果 如 下 : 


In [6] :str utf8 = "我 们 ".encode ('utf-8') 
str gbk = str utf8.encode('gbk') 


AttributeError 

Traceback(most recent call last) 
<ipython-input-6-5d0c32a4bf21 > 

in«module»() 

1 str utf8= "我 们 ".encode(utf-81) 

---->2 str_gbk=str_utf8.encode('gbk’) 
AttributeError:'bytes'object has no attribute'encode' 


答案 都 是 否定 的 。 因 为 在 Python 3 中 ，Unicode 不 可 以 再 被 解码 。 如 果 想 把 UTF-8 转 成 其 他 非 unicode 编 码 ， 那 么 必须 先 decode 成 Unicode， 再 encode 为 其 他 非 Unicode 编 码 ， 如 GBK。 


I 


encode 转 换 为 其 他 非 Unicode 编 码 的 代码 如 下 : 


In [7]:str utf8 = "我 们 ".encode ('utf-8') 
str gbk = str utf8.decode ('utf-8').encode ('gbk') 
print (str gbk) 


b'\xce\xd2\xc3\xc7' 


10.3 ”解决 中 文 编码 问题 


理解 了 Python 的 编码 后 ， 出 现 的 问题 就 很 容易 解决 了 。 在 使 用 Python 进行 网 络 聆 虫 的 时 候 ， 对 于 中 文 出 现 的 乱码 会 出 现 以 下 几 种 情况 。 


问题 1: 使 用 Requests 获 得 网 站 内 容 后 ， 发 现 中 文 显示 乱码 。 
问题 2: 将 某 个 字符 串 decode 时 ， 字 符 串 中 有 非法 字符 ， 程 序 抛 出 异常 。 
问题 3: 网 页 使 用 gzip 压 缩 ， 解 析 网 页 数据 的 时 候 中 文 不 不 乱码 显示 。 


问题 4: 写 入 和 读 取 文件 的 时 候 ， 文 件 显示 的 字符 串 不 是 正确 的 中 文 。 


10.3.1 问题 1: 获取 网 站 的 中 文 显示 乱码 


获取 w3school 网 站 的 内 容 ， 图 10-2 所 示 为 “领先 的 Web 技 术 教程 -全 部 免费 ”页 面 。 


À TU 


| HTML / CSS JavaScript Server Side ASP.NET XML Web Services Web Building 
uu "m SEARCH: 
领先 的 Web 技术 教程 - 全 部 免费 
HTML5 Go 
XHTML IE 三 : 
CSS 在 w3school , 你 可 以 拒 到 你 所 需 委 的 所 有 的 网 站 建设 教程 。 参 老手 册 
CSS3 HTML/HTMLS 二 等 
HTML ,乃至 进 阶 的 XML，SQL、JS、PHP 和 ASP.NET. 
TCP/IP Meee £jCSS, 73 LE SQL JS fü E HTML 
CS5 2.3 
MESSER A 从 左 侧 的 菜单 选择 你 需要 的 教程 ! = 
— HTML DOM 
cm ^ M 
; 完整 的 网 站 技术 参考 手册 jQuery Mobile 
jQuery Mobile = VBScript 
' = ~ 我 们 的 参考 手册 涵盖 了 网 站 技术 的 方方面面 。 ASP 
JSON ADO 
| EE 其 中 包括 W3C 的 标准 技术 : HTML、CSS、XML 。 以 及 其 他 的 技术 ,诸如 JavaScript、PHP、SQI 等 等 ASP.NET 
: PHP 5.1 
WMLScript XML DOM bd 
i 
| [x d] Elements Console Sources Network Timeline Profiles Application Security Audits Adblock Plus : xX 
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" “http: //www.w3.org/TR/xhtnl1/DID/xhtmli1-strict.dtd”> a Styles | Computed Event Listeners » 
€html xmins="http: //www.w3.org/1999/xhtm1"> i | 
V#shadow-root (open) Filter :hov .cls ta 
> <shadow>..< /shadow> en P 
<style></style> arte eee 
» <head>..</nead> } 
*«body id="homefirst"> body#homefirst div#maincontent c5.css:285 
Y «div id-"wrapper"» div#w3 h2 { 
b «div id-"header index"»5..«/div» margin-top: 20px; 
b «div id="navfirst">.</div> h 
> <div id-"navsecond"»..«/div» body#homefirst divitmaincortent c5.css:74 
pce id- x m > div#w3 h2 { y 
<div id="w3"> : 
font- : 20px; 
“nz 领先 的 Wep 技术 教程 - 全 部 免费 </nz》， == so ee 
《p> 在 Ww3schoo1， 你 可 以 找到 你 所 需要 的 有 有 的 网 站 建设 教程 。</p> XU REX EU 
zp> 从 基础 的 HTML 到 CSS. J2z83HBARJXML. SQL. JS. PHP 和 ASP.NETe </p> div#maincontent n2, div#sidebar £5.c55:59 


> «p»..«/p» 

</div> 
><div class="idea">..</div> 
><div class-"idea"».«/div» 
><div class="idea">..</div> 
> <div>..</div> 
b <div>..</div> 


html body#homefirst div*wrapper div*maincontent div*w3 $ 


图 10-2” 显示 网 页 内 容 


如 果 我 们 使 用 前 几 章 介绍 的 方法 ， 其 代码 为 : 


import requests 
from bs4 import BeautifulSoup 


url = 'http://w3school.com.cn/' 

r — requests.get (url) 

soup = BeautifulSoup(r.text, "lxml") 
xx = soup.find('div',id-'d1').h2.text 
print (xx) 


运行 上 述 代 码 ， 得 到 的 结果 是 : AifEpA Web “%AEO“PI - Ee, Aâ Ñ o 


div#ad h2, body#homefirst divitmaincontent h3 
1 

fent sis pe 
} 


body#homefirst «style».«/style» 
div#maincontent, div#maincontent hl, 
= | div#maincontent h2, div#sidebar divéad h? { 


font-family: 微软 雅 里 ; x 
a5 


这 一 行 乱码 不 是 我 们 所 期 望 的 结果 ， 问 题 出 在 哪儿 呢 ” 这 是 因为 代码 中 获得 的 网 页 的 响应 体 r 和 网 站 的 编码 方式 不 同 。 键 入 rencoding， 得 到 的 结果 是 ISO-8859-1。 意 思 是 Requests 基 于 HTTP 头 部 推测 


的 文本 编码 是 ISO-8859-1。 


从 网 站 代码 中 可 以 看 到 ， 真 正 使 用 的 编码 是 gb2312， 如 图 10-3 所 示 。 


<title>w3school AE </title> 

<meta name- description cont ent= ERARI Web ri D 
<link rel="stylesheet” type="text/ 

<meta http-equiv- Content-Type" 

<meta nttp- equi ve"Content-Laneusee™™ 


<meta name-"robots" content-" all" ^h 

<meta name-"author' content-" w3school.com.cn /> 

<meta name- Copyright” content- Copyright W3school. com cn All Rights Reserved.” /> 
<meta name-"MSSmartlagsPreventParsing' content-" true" /> 

<meta http-equiv-"imagetoolbar' content-" false" /> 

<link rel-" shortcut icon” href-"/favicon ico" type-"image/x-icon /> 


图 10-3 ”使 用 的 编码 是 gb2312 
因此 ， 我 们 需要 声明 r 的 正确 编码 为 gb2312。 
在 r=redquests.get(url) 后 加 上 rencoding='gb2312'， 再 运行 一 次 代码 ， 应 该 就 可 以 得 到 正确 结 


为 什么 之 前 肛 取 网 页 时 不 用 声明 编码 方式 呢 ? 这 是 因为 大 多 数 网 页 的 编码 方式 都 是 UTF-8，Requests 会 自动 解码 来 自 于 服务 器 的 内 容 。 大 多 数 Unicode 字 符 集 都 能 被 无 颖 地 解码 ， 这 其 中 就 包括 UTF- 
8。 例 如 ， 碍 看 京东 电 商 的 源 代 码 ， 可 以 看 到 它 的 编码 方式 是 UTF-8， 如 图 10-4 所 示 。 


<meta charset=" UTF-8" > | 
<title> RF QD. 00 了 -正品 低 价 、 品 质保 障 、 醒 送 及 时 、 轻 松 购 物 ! </title> 


<meta name= description = “京东 JD. 0O0 及 专业 的 综合 网 上 风物 商城 ， 
， ASTER tate Abed ETHES | 
kneta name=" Keywords" content=" 向 上 购物 ,网 上 商城 手机 , 笔记本, FB, AG, MP 


图 10-4 ”网 页 的 编码 方式 是 UTF-8 


10.3.2 ”问题 2: 非法 字符 抛 出 异 


当 我 们 将 某 个 字符 种 从 GBK 解 码 为 Unicode 的 时 候 ， 可 以 采用 : 


strl.decode('GBK') 


但 是 在 实际 进行 网 络 息 虫 的 时 候 ， 可 能 会 遇 到 如 下 异常 : 
UnicodeDecodeError:'GBK'codec can't decode byte in position 20146-20147:illegal multibyte sequence 
出 错 的 原因 是 有 些 网 站 的 编码 不 规范 ， 在 一 个 页 面 里 混入 了 多 种 编码 ， 于 是 出 现 了 非法 字符 。 


例如 ， 全 角 的 空格 往往 有 多 种 不 同 的 实现 方式 ， 如 \xa3\xa0、\xa4\x57， 这 些 字符 看 起 来 像 是 全 角 空 格 ， 但 是 它们 并 不 是 真正 的 全 角 空格 ， 真 正 的 全 角 空 格 为 \xa1\xa1， 所 以 在 解码 的 过 程 中 就 会 出 现 
异常 。 但 是 这 样 的 问题 很 让 人 头疼 ， 因 为 只 要 字符 串 中 出 现 了 一 个 非法 字符 ， 整 个 代 虫 程序 都 有 可 能 因此 报错 ， 进 而 停止 运行 。 


解决 方法 很 简单 ， 可 以 采用 ignore 忽 略 这 些 非法 字符 : 


strl.decode('GBK','ignore') 


在 decode 方 法 中 ，decode 的 函数 原型 为 decode([encoding],[errors= strict])， 第 二 个 变量 为 控制 错误 处 理 的 方式 ， 默 认为 strict， 遇 到 非法 字符 时 会 抛 出 异常 。 
我 们 可 以 把 第 二 个 参数 设置 为 其 他 变量 ， 有 以 下 3 种 方法 : 

(1) ignore， 忽 略 其 中 的 非法 字符 ， 仪 显示 有 效 字符 。 

(2) replace， 使 用 符号 代替 非法 字符 ， 如 '?' 或 \ufffd'。 


(3) xmlcharrefreplace， 使 用 XML 字符 引用 代 蔡 非法 字符 。 


10.3.3 “问题 3: 网 页 使 用 gzip 压 缩 


当 使 用 Requests 获 取 新 浪 网 首页 的 时 候 ， 然 后 去 网 页 源 代码 处 了 解 编码 ， 可 以 发 现 使 用 的 是 UTF-8 编 码 。 我 们 直接 使 用 前 几 章 介绍 的 方法 获取 内 容 ， 代 码 如 下 : 


import requests 

url = ‘http://www.sina.com.cn/' 
r = requests.get (url) 

print (r.text) 


运行 上 述 代码 ， 部 分 结果 截图 如 图 10-5 所 示 。 


<!DOCTYPE html> 
<!-- [ published at 2017-05-14 18:21:12 ] 一 > 
<html> 
<head> 
<meta http-equiv= Content-type” content="text/html; charset=utf-8" /> 


<meta http-equiv- X-UA-Compatible” content=" IE=edge” /> 
<title>e-° ey’ é! -éj u</title> 


<meta name-^keywords/ content="#-° æu, æ- ° ey’ c, SINA, sina, sina. com. cn, &- ^ BH é! - éj p, é— "æ +, 6p ee 
- 5 

<meta name-"description/ content-/&-?^ ej çka, "à, "cfc" € + 248° &—92834, " étàSe—$c: à, æ- ien èO 1 
A(EÀt,, 28' èl tp- hat, a-p Rae ° ó—»8". à» fasi epa". 887 t 8'e—18^ raa" S 8, eh 80 aiee" Bi cou MOOG 
&-^ é—»àaak'e T3" ta! ae genas S esas La? S aet KEK! co 308 isa, * At. AB! ef OI MCA Ge—Jareongcaoe¢ae S tég Gee” ac 
q,6i*c"- a" "AS a? enpo é—' a,” > 


图 10-5 中文 显示 为 乱码 


中 文部 分 全 为 乱码 ， 这 里 已 经 使 用 了 默认 的 Charset 编 码 方式 ， 为 什么 还 会 出 现 乱码 呢 ? 这 是 因为 新 浪 网 使 用 gzip 将 网 页 压缩 了 ， 必 须 先 将 其 解码 才 行 。 幸 运 的 是 ， 使 用 rcontent 会 自动 解码 gzip 和 
deflate 传 输 编码 的 响应 数据 。 


import chardet 

after gzip = r.content 

print (' 解 压 后 字符 串 的 编码 为 ', chardet.detect (after gzip)) 
print (after gzip.decode('UTF-8')) 


运行 上 述 代码 ， 得 到 的 结果 如 图 10-6 所 示 。 


PEARSA l encoding’: 'utf-8', 'confidence': 0.99} 
< IDOCTYPE html> 


€«1-- [ published at 2017-05-14 18:21:12 E. 
<html> 


<head> 
<meta http-equiv- Content-type content= text/html; charset-utf-8' /> 


<meta http-equiv- X-UA-Compatible" content= IE-edge" /> 
Citle 3hnhHB p title» 
<meta name= keywords” content- 3JpR, 新 浪 网 , SINA, sina, sina. com. cn, STR Bl, | IR, WV O 
<meta name=" description” content= $SÓpRDSp3-EkFHFP24/ HB hepa, PQEPSRA 
闻 事 件 、 体 坛 赛事 、 妊 乐 时 尚 、 产 业 资 讯 、 奖 用 信息 等 ， 设 有 新 闻 、 体 育 、 姓 乐 、 财 经 、 科 技 、 房 产 、 汽 车 人 
道 ， 癌 时 并 设 博 寄 、 视 频 、 论 坛 等 目 由 互动 科 流 空间 。” > 


图 10-6 ”显示 正确 的 结果 


在 上 述 代码 中 ， 首 先 使 用 rcontent 解 压 gzip ， 然 后 使 用 Charset 找 到 该 字符 串 的 编码 为 UTF-8， 最 后 把 字符 串 解 码 为 Unicode， 就 可 以 打印 出 来 了 。 


10.3.4 ”问题 4: 读 写 文 件 的 中 文 乱码 


在 使 用 Python 3 读 取 和 保存 文件 的 时 候 ， 一 定 要 注 明 编码 方式 。 


例如 ， 创 建 一 个 TXT 文件 ， 命 名 为 test_ANSI.txt， 里 面 保存 有 文本 内 容 “abc 中 文 ”。 首 先 使 用 记事 本 默认 的 ANSI 编 码 保存 文件 ， 如 图 10-7 所 示 。 


test ANSLtxt - 记事 本 
文件 (| SSE) 格式 (O) SEV) 帮助 (H) 


图 10-7 4) #@ test_ANSL txt 


然后 创建 另 一 个 TXT 文件 ， 命 名 为 test_utf8.txt， 里 面 保存 有 文本 内 容 “abc 中 文 ”， 转 为 用 UTF-8 编 码 的 格式 保存 ， 如 图 10-8 所 示 。 


文件 各 (N): test utf8.txi 


II 1 


图 10-8 创建 UTF-8 格 式 的 文本 文件 


下 面 尝试 用 Python 来 读 取 这 两 个 文件 ， 先 不 注 明 编码 方式 ， 代 码 如 下 : 


In [58]:result = open('test ANSI.txt','r').read() 
print (result) 
abcr x 


In [59]:result = open('test utf8.txt','r').read() 
print (result) 
UnicodeDecodeError Traceback (most 
recent call last) 
<ipython-input-59-2290a8249b20> in «module» () 
----» 1 result = open('test utf8.txt','r').read() 
2 print (result) 


UnicodeDecodeError: 'gbk' codec can't decode byte Oxad in 
position 8: illegal multibyte sequence 


最 后 结果 是 test_ANSI.txt 能 够 正确 读 取 ， 而 test_utf8.txt 出 现 了 异常 。 这 是 因为 计算 机 的 Windows 系 统 安装 的 是 简体 中 文 版 ， 默 认 的 编码 方式 为 GBK (也 就 是 这 里 的 ANSI) ， 所 以 test_ ANSI.txt 能 正确 
读 取 ， 而 test-utf8.txt 不 能 。 


因此 ， 我 们 必须 在 读 取 文 件 的 时 候 声 明 编 码 方式 : 


result ANSI = open('test ANSI.txt', 'r', encoding-'ANSI').read() 
print (result ANSI) 
result utf8 = open('test utf8.txt', 'r', encoding-'UTF-8').read() 
print (result utf8) 


同 理 ， 当 我 们 保存 文件 的 时 候 ， 也 一 定 要 注 明 文件 的 编码 : 


title = 我们? 

with open('title.txt', 'at', encoding-'UTF-8') as f: 
f.write (title) 

f.close() 


以 上 是 对 于 TXT 文件 和 CSV 文 件 的 处 理 方法 。 对 于 JSON 文 件 而 言 ， 当 我 们 把 带 有 中 文 的 数据 保存 至 json 文 件 时 ， 默 认 会 以 Unicode 编 码 处 理 ， 例 如 ; 


import json 

title = ' 我 们 love 你 们 ' 

with open('title.json','w',encoding = 'UTF-8') as f: 
json.dump ([title],f) 


打开 titlejson， 数 据 如 图 10-9 所 示 。 


JE title.json - 记事 本 


图 10-9 ”title.json 文 件 


如 果 我 们 希望 能 够 显示 出 中 文 ， 可 以 把 代码 改 为 : 


import json 

title = ' 我 们 love 你们， 

th open('title.json','w',encoding = 'UTF-8') as f: 
json.dump([title],f,ensure ascii-False) 


wit 


打开 新 的 titlejson， 数 据 如 图 10-10 所 示 。 


可 title.json - 记事 本 
| 文件 (F) SE) A(O) 


图 10-10 ”显示 正确 的 结果 


10.4 RA 


在 各 个 Python 讨论 区 经 常 可 以 看 到 大 家 讨论 中 文 编码 问题 。 希 望 通过 这 一 章 的 学 习 ， 读 者 不 像 以 前 一 样 即使 解决 了 中 文 编码 问题 却 不 知 其 所 以 然 ， 而 是 可 以 通过 理解 为 什么 、 怎 么 回 事 ， 融 会 贯通 地 理 


解 编码 问题 ， 掌 握 “ 点 石 成 金 ” 之 术 。 


第 11 草 ”登录 与 验证 码 处 理 


在 第 9 章 读 到 了 反 妥 贝 会 增加 获取 数据 的 难度 ， 如 登录 后 才 可 以 查看 、 登 录 时 设置 验证 码 等 。 其 实 这 些 问题 是 可 以 解决 的 ， 我 们 既 可 以 利用 Python 登录 网 页 上 的 表单 ， 还 可 以 通过 程序 识别 图 片 中 的 文 


字 ， 以 实现 验证 码 的 处 理 。 
本 章 将 针对 第 9 章 提 出 的 要 点 进行 介绍 ， 主 要 包括 如 何 处 理 登 录 表 单 、 如 何 保存 cookies、 如 何 使 用 人 工 方法 处 理 验证 码 以 及 使 用 DCR 识 别 方法 处 理 验证 码 。 


11.1 处理 登录 表单 


随 着 Web 2.0 的 发 展 ， 大 量 数 据 都 由 用 户 产生 ， 这 里 需要 用 到 页 面 交 互 ， 如 在 论坛 提交 一 个 帖子 或 友 送 一 条 微 博 。 因 此 ， 处 理 表单 和 登录 成 为 进行 网 络 息 虫 不 可 或 缺 的 一 部 分 。 获 取 网 页 和 提交 表单 相 


比 ， 获 取 网 页 是 从 网 页 抓 取 数据 ， 而 提交 表单 是 向 网 页 上 传 数据 。 
在 客户 端 (浏览 器 ) 向 服务 器 提交 HTTP 请 求 的 时 候 ， 两 种 常用 到 的 方法 是 GET 和 POST。 使 用 GET 方 法 的 时 候 ， 查 询 字 符 串 (名 称 / 值 对 ) 是 在 GET 请 求 的 URL 中 发 送 的 : 


http://httpbin.org/get?key1- value1&key2-value2 
因为 浏览 器 对 URL 有 长 度 限 制 ， 所 以 GET 请 求 提交 的 数据 会 有 所 限制 。 这 里 数据 都 清 清楚 楚 地 出 现在 URL 中 ， 所 以 GET 请 求 不 应 在 处 理 敏 感 数据 时 使 用 ， 如 密码 。 
按照 规定 ，GET 请 求 只 应 用 于 获取 数据 ， 因 此 前 面 介绍 的 都 是 使 用 Requests 库 的 GET 方 法 爬 取 数据 。 


相对 于 GET 请 求 ，POST 请 求 则 用 于 提交 数据 。 因 为 查询 字符 串 (名 称 / 值 对 ) 在 POST 请 求 的 HTTP 消 息 主体 中 ， 所 以 敏感 数据 不 会 出 现在 URL 中 ， 参 数 也 不 会 被 保存 在 浏览 器 历史 或 Web 服 务 器 日 志 
rm, fih: 


POST/test/demo form.asp HTTP/1.1 
Host:w3schools.com 
name =value1&name2=value2 


因此 ， 表 单数 据 的 提交 基本 上 要 用 到 POST 请 求 。 


11.1.1 ”处理 登录 表单 

大 多 数 网 站 都 会 在 网 站 上 注 明 禁止 怜 虫 登录 表单 ， 为 了 在 法 律 和 道德 上 的 双 保 险 ， 笔 者 在 个 人 博客 上 开 了 一 个 测试 账号 ， 方 便 大 家 学 习 这 一 部 分 的 内 容 。 账 号 名 为 test， 密 码 为 a12345， 为 了 方便 其 他 
读者 的 使 用 ， 请 不 要 修改 密码 。 读 者 可 以 使 用 笔者 的 网 站 学 习 如 何 处 理 登 录 表单 ， 网 站 地 址 为 http://www.santostang.com/wp-login.php。 

处 理 登 录 表 单 可 以 分 为 两 步 : 

(1) 研究 网 站 登录 表单 ， 构 建 POST 请 求 的 参数 字典 。 

(2) 提交 POST 请 求 。 

以 下 是 构建 POST 请 求 的 参数 字典 的 几 个 步骤 。 


步骤 01 打开 网 页 并 使 用 “检查 ”功能 。 使 用 Chrome 打 开 博 客 主页 http://www.santostang.com/wp-login.php， 右 击 页 面 任意 位 置 ， 在 弹出 的 快捷 菜单 中 单 击 “ 检 查 ” 命 令 。 在 弹出 的 页 面 左上 角 单 击 “ 饼 
标 ” 按 钮 ， 再 在 网 页 单 击 登 录 框 这 一 区 域 ， 可 以 看 到 代码 中 定位 到 了 登录 框 的 位 置 ， 如 图 11-1 所 示 。 


EN D 大 数据 中 店 松 Santos : x v 门 view-sourcewww.san' X 


€ CQ QE | wwwsantostang.com/wp- 


[x al Elements Console Sources Network Timeline Profiles 
html xmins="http://www.w3.org/1999/xntml” lang-"zh-CN EI 
«1--«1[endif] 
> c«head»...« /heed 
Y <body class-"login login-action-login wp-core-ui  locale-zh-cn 
V «div id-"login 
b chlo c/n 


name-"loginform" id-"loginform" action-*http://www.santostang.com/wp-login.php" methad="post .login form .input ( up-login.php:49 


Styles Computed Event Listeners 


border-style: none! important; 
Y«lebel for-"user login borcer-width:b 5px !important; 
“RAMS Fe” 
m - .login form .input { 
input type="text" name- log" id- user login cless- input” value i ei 
jlabel 
/p 
Yep login form .input { 
¥<label for-"user pass $ + HH 
"E" 
Dr .login form .input { u"p-login.php:33 
input type="password" name-"pwd" id-"user pass" class-"inpu border-radius: 5px :l1mportant; 


fiadoel 


.login form ioad-siyles.php.in&ver-4.7.3:5 
.input, .login form input[type-checkbo»], 
.login input[type-text] { 

v background: > | #fbfbfb; 


v class-"dz-login" ztyle-"height:40px;" id="ds-login"*»..</div 
script 
p class-"forgetmenot 
F ¿lahel 4nr-"ramamhanrna 


htm! bedy.login.login-action-login.wp-core-ui.locale-zh-cn — div&login form#ioginform p label Mini a es Not 


图 11-1 定位 到 登录 框 的 位 置 


步骤 02 查看 各 个 输入 框 的 代码 。 在 用 户 名 输入 框 中 ，name 属 性 的 值 为 og， 这 里 的 log 将 会 是 表单 的 key 值 ， 它 的 value 则 是 我 们 要 输入 的 用 户 名 ， 如 图 11-2 所 示 。 


¥<label for-"user login 


"用户 名 或 电子 邮件 地 址 " 


m r 


= 


input type="text" name-"log" id-"user login 


图 11-2 查看 用 户 名 输入 框 的 代码 


同 理 ， 在 审查 元 素 中 单 击 密码 框 ， 可 以 找到 密码 的 key 值 ， 即 hame 属 性 的 值 pwd， 如 图 11-3 所 示 。 因 此 ，pwd 将 是 之 后 登录 表单 的 key 值 ， 它 的 value 则 是 我 们 输入 的 密码 。 


Y «label for-"user pass 


— 


type="password” name-"pwd" id-"user pass" class= 


E11-3 ”查看 密码 输入 框 的 代码 
在 页 面 中 单 击 “ 记 住 我 的 登录 信息 ” ， 可 以 找到 对 应 的 key 值 。 如 图 11-4 所 示 ，kKkey 值 是 name 属 性 的 值 rememberme，value 则 是 里 面 的 forever。 
Y «label for-"rememberme 


input name-"rememberme" type- box" id-"rememberme" value- 


" CERNS E" 


/label 


图 11-4 显示 “ 记 住 我 的 登录 信息 ”对 应 的 key 值 


这 个 POST 请 求 是 不 是 像 我 们 正常 登录 一 样 ， 提 交 “ 用 户 名 ” “密码 ”和 “ 记 住 我 的 登录 信息 ”3 个 参数 就 可 以 直接 登录 了 呢 ? 答 案 并 没有 想象 中 那么 简单 。 在 登录 表单 中 ， 有 些 key 值 在 浏览 器 中 设置 
了 hidden 值 ， 是 不 会 显示 出 来 的 ， 这 里 我 们 可 以 在 审查 元 素 中 找 出 来 ， 如 图 11-5 所 示 。 


VY «p class-"submit 
input type="submit’ me-"wp-submit" id-"wp-submit" class="button button-primary but 


input type="hidden” nan redirect to" value-"http://www.santostang.com/wp-admin/ 
input type="hidden" nan testcookie" value="1" 
/p 


图 11-5 查找 隐藏 值 
可 以 发 现 ， 有 两 个 参数 在 隐藏 标签 (type="hidden") 中 。 第 一 个 是 redirect to， 它 的 value 是 http://www.santostang.com/wp-admin/; 另 一 个 是 testcookie， 它 的 value 是 1。 


因此 ， 这 里 可 以 构建 POST 请 求 的 参数 字典 dict， 代 码 如 下 : 


postdata = { 
'pwd': 'a12345', 


'log': 'test', 

'rememberme' : 'forever', 

'redirect to': 'http://www.santostang.com/wp-admin/', 
'testcookie' : 1, 


接 下 来 就 可 以 提交 POST 请 求 来 登录 网 站 了 。 


首先 需要 导入 requests 库 ， 创 建 一 个 session 对 象 


import requests 
session = requests.session() 


session 是 网 站 开发 中 一 个 非常 重要 的 概念 。 通 俗 来 说 ， 就 是 用 户 在 浏览 某 个 网 站 时 ， 从 进入 网 站 到 关闭 浏览 器 所 经 过 的 这 段 过 程 。session 对 象 会 存储 特定 用 户 会 话 所 需 的 属性 和 配置 信息 ， 这 对 我 们 
后 面 在 其 中 保存 和 操作 cookies 非 常 有 意义 。 


下 面 提交 post 请 求 ， 代 码 如 下 : 


import requests 
session = requests.session() 


post url = 'http://www.santostang.com/wp-login.php' 
agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10 12 3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36' 
headers = { 

"Host": "www.santostang.com", 

"Origin": "http://www.santostang.com", 

"Referer": "http: //www.santostang.com/wp-login.php", 

'User-Agent': agent 


} 
postdata = { 
'pwd': 'a12345', 


'log': 'test', 

'rememberme' : 'forever', 

'redirect to': 'http://www.santostang.com/wp-admin/', 
'testcookie' : 1, 


} 


login page = session.post (post url, data-postdata, headers-headers) 


print (login page.status code) 


在 上 述 代码 中 ， 先 建立 了 各 个 参数 ， 包 括 post、postdata 和 headers， 然 后 使 用 login_page=session.post(post_urldata=postdata,headers=headers) 的 session.post 方 法 ， 参 数 的 ur| 是 
post_url，data 用 的 是 postdata 字 上 典 ， 发 送 POST 请 求 。 


运行 上 述 代 码 ， 如 果 最 后 输出 的 结果 为 200， 就 代表 响应 的 状态 为 请 求 成 功 ， 可 以 成 功 登 录 表单 。 若 为 其 他 代码 ， 则 表示 其 他 信息 ， 例 如 : 
303 一 一 重 定向 


400 一 一 请 求 错误 


401 一 一 未 授权 


403 禁止 访问 


404 一 一 文件 未 找到 


500 一 一 服务 器 错误 


11.1.2 “处理 cookies， 让 网 页 记 住 你 的 登录 


在 上 述 登 录 表单 中 ， 我 们 非常 容易 地 登录 成 功 了 。 这 也 意味 着 每 次 重新 运行 代码 都 要 登录 一 次 ， 之 后 才能 在 session 中 有 息 取 数据 。 
有 没有 一 种 方法 能 够 把 登录 状态 记录 下 来 ， 再 次 运行 代码 的 时 候 可 以 直接 获取 之 前 的 登录 状态 ， 从 而 不 用 重新 登录 呢 ? 


这 样 的 方法 确实 有 ， 使 用 cookie 即 可 。 当 用 户 浏览 以 前 访问 过 的 网 站 时 ， 即 使 没有 登录 过 该 网 站 ， 网 页 中 也 可 能 出 现 : “你 好 ，XXX， 欢 迎 再 次 访问 网 站 ”。 这 会 让 用 户 感觉 很 亲切 ， 就 像 见 了 老 熟 人 
一 样 。 


为 什么 网 站 知道 用 户 曾 经 浏览 过 呢 ?” 因 为 网 站 为 了 辨别 用 户 身份 ， 使 用 session 跟 踪 并 将 数据 存储 在 了 用 户 本 地 终端 上 。 当 你 重新 访问 该 网 站 的 时 人 息 ， 便 会 从 cookies 中 找 回 之 前 浏览 的 信息 。 


因此 ， 我 们 也 可 以 利用 cookies 保 存 之 前 登录 的 信息 ， 这 样 在 下 次 访问 网 站 的 时 候 ， 调 用 cookies 就 会 是 已 经 登录 的 状态 了 。 代 码 如 下 所 示 : 


import requests 
import http.cookiejar as cookielib 


session = requests.session() 
session.cookies = cookielib.LWPCookieJar(filename-'cookies') 


post url = 'http://www.santostang.com/wp-login.php' 
agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10 12 3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36' 
headers = { 

"Host": "www.santostang.com", 

"Origin": "http://www.santostang.com", 

"Referer": "http://www.santostang.com/wp-login.php", 

'User-Agent': agent 


} 
postdata = { 
'pwd': 'a12345', 
'log': 'test', 
'rememberme' : 'forever' 
'redirect to': 'http: avis santostang.com/wp-admin/', 
'testcookie' : 1, 


} 
login page = session.post (post url, data-postdata, headers-headers) 


print (login ] page.status code) 
session.cookies.save () 


首先 使 用 import http.cookiejar as cookielib 导 入 cookiejar 库 ， 如 果 没 有 安装 这 个 库 ， 那 么 可 以 使 用 pip 安 装 。 在 cmd 中 输入 pip install cookiejar， 并 按 回 车 键 安装 。 
然后 说 明 cookies 所 在 的 位 置 ，session.cookies=cookielib.LWPCookieJar(filename='cookies')。 在 完成 整个 获取 之 后 ， 使 用 session.cookies.save0 保 存 此 次 登录 的 cookies。 


cookies 存 储 在 代码 所 在 的 文件 夹 中 。 使 用 记事 本 打开 该 文件 可 以 看 到 里 面 的 数据 ， 如 图 11-6 所 示 。 


T cookies -记事 本 999606 cM d imran 
ZAD BSO HHO) EEV SWM O O 


#LWP-Cookies-2. 0 

set—lookies: 

duashuo. token-"eyJOeXAi0iJKVIGiLCJhbGciOiJIUZzI1Ni]9. ey] zaG3ydF SuTW11IjoicZFudGS9zdoFu2yls 
InVzZX]fa2ZV5ljozLC JuTWllljoidoYzdo]9. QSYoRwf 3Tt01 6QF ob] de3g ACm5NoxXOYwCpC4hgwVenr" : 
path= /"; domain= www. santostang.com ; path spec; expires- 2017-04-02 16:14:25Z"; 
version=0 

Set-Cookie3: wordpress_logged_in_dibcd9a2844al 3f£8dc3ebadeb2cdfalT0= test 

$7014911064654 TCZvT JUTWOLITY jwat xrzhimGvcTwLhoE46m3roPesNnof 34 7C 9dsea0d54307 960 7069d9a58b0 
35945c360daaccfcllfbf3TT900T9bc88b2cTe"; path="/"; domain- www. santostang. com”; 

path spec: expires="2017-04-02 16:14:25Z": httponly=None: version=0 

set-Cookies: 

duoshuo_token="ey]0eXAiOi JKVIQILC ThbGci0i JIUZIINiT9. ey] zaG3ydF 9uYW111 joic2FudG3zdoFudyls 
InVzZX] fa2V5I jozLUJurwW1 1I joidGVzdtJ9. QbYoRw£ 3J 101 6QF oB] dgSgACm5NoxXOYwCpCdhgwVum" ; 
path=" ‘(wp admin” : domain="wew. santostang. com : path spec: expires="2017-04-02 
16:14:25Z": version-Ü 

Set-Cookie3: wordpress dTbcd9a2844al3fB8dc3ebadebZcdfaTO-" test 

S°C1491106b465R Cev [UTWOLY wat xrzlinGvciwLhoEd6m3roPes5Mnotf9?WiCatfliadf6íicafbb6abf55aadzbb 
ee931eTbdedef59852d6cdb61245d2eb204e6e": path="/wp-admin”: domain- "www. santostang. com ; 
path spec: expires- 2017-04-02 16:14:25Z": httponly-None: version=0 

Set-Cookie3: wordpress d7bcd9a2844al3f8dc3e5adeb2cdfaTO- test 

4TCI1491106465*5 TCZvY JUTHOLY jwaY xrzM fumGvcTwLhoEd6m3roPeSNnof9WTCaflTa4f5Tcafbb6ab6f88aad2b56 
ec931eTbdedef59852d6cdb61245d2eb204e6e"; path="/wp-content/plugins’ ; 

domain="waw. santostang. com’: path spec: expires- 2017-04-02 16:14:252"- httponly=None: 
version=0 


图 11-6 cookies Xx £F 


其 中 ，cookies 数 据 是 已 经 加 密 过 的 ， 每 一 个 cookie 大 概 会 定义 4 个 参数 : 


Set-Cookie: name = VALUE 
expires = DATE; 
path = PATH; 

domain = DOMAIN NAME; 


Ne 


name 是 cookie 的 名 称 ， 这 里 一 般 进 行 加 密 处 理 ， 所 以 上 述 截图 中 的 name 已 经 经 过 加 密 ， 看 不 懂 是 什么 意思 了 ; expires 是 cookie 的 到 期 日 期 和 时 间 ; path 是 指 cookie 的 路 径 ; domain 是 指 cookie 所 
在 的 域名 。 


有 了 保存 下 来 的 cookies 后 ， 我 们 便 可 以 通过 加 载 cookies 实 现 登 录 了 。 


首先 ， 导 入 cookiejar 库 。 


impor! 
import 


requests 
http.cookiejar as cookielib 


ch ct 


导入 库 之 后 ， 需 要 加 载 在 计算 机 上 保存 的 cookie。 


session = requests.session() 
session.cookies = cookielib.LWPCookieJar (filename='cookies') 
try: 
session.cookies.load(ignore discard=True) 
except: 
print ("cookie 未 能 加 载 ") 


print("cookie 未 能 加 载 ") 


如 果 没 有 出 现 “cookie 未 能 加 载 ”， 就 表示 cookies 已 经 加 载 成 功 了 。 这 时 ， 我 们 可 以 创建 一 个 isLogin() 的 函数 ， 用 来 检测 是 否 已 经 登录 。 这 里 为 了 检测 是 否 登录 成 功 ， 我 们 设置 为 登录 完成 后 进入 的 页 
面 url， 并 且 设 置 了 禁止 跳 转 allow _redirects=False， 这 样 就 不 会 跳 转 到 未 登录 页 面 。 


def isLogin(): 
url — "http://www.santostang.com/wp-admin/profile.php" 
login code - session.get(url, headers-headers, allow redirects-False).status code 
if login code -- 200: 
return True 
else: 
return False 


如 果 用 户 个 人 信息 的 页 面 能 够 成 功 返 回 200， 就 表示 已 经 成 功 登 录 了 。 这 时 可 以 调用 这 段 代 码 : 


LE 
. 


if name == ' main 
agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10 12 3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36' 
headers = { zc 

"Host": "www.santostang.com", 

"Origin":"http://www.santostang.com", 

"Referer":"http://www.santostang.com/wp-login.php", 

'User-Agent': agent 


Lu. 


f isLogin(): 
print (' 您 已 经 登录 ') 


如 果 出 现 “ 您 已 经 登录 ”， 我 们 就 可 以 在 这 个 session 下 开始 胞 取 数 据 了 。 


11.1.3 ”完整 的 登录 代码 


前 面 已 经 说 明了 如 何 登 录 表单 和 使 用 加 载 cookie 的 方法 免 账号 、 密 码 登 录 。 如 果 想 要 一 劳 永 逸 ， 在 没有 cookies 的 时 候 输入 账号 、 密 码 登 录 ， 在 有 cookies 的 时 候 加 载 cookie 登 录 ， 束 可 以 把 这 两 部 分 内 
容 结合 起 来 ， 组 合成 如 下 代码 : 


import requests 
import http.cookiejar as cookielib 


session = requests.session() 
session.cookies = cookielib.LWPCookieJar (filename='cookies') 
try: 
session.cookies.load(ignore discard=True) 
except: 
print ("Cookie 未 能 加 载 ") 


def isLogin(): 
# 通过 查看 用 户 个 人 信息 来 判断 是 否 已 经 登录 
url = "http://www.santostang.com/wp-admin/profile.php" 
login code - session.get(url, headers-headers, allow redirects-False).status code 
if login code == 200: 
return True 
else: 
return False 


def login(secret, account): 
post url = 'http://www.santostang.com/wp-login.php' 
postdata = { 
'pwd': secret, 
'log': account, 


'rememberme' : 'true', 
'redirect to': 'http://www.santostang.com/wp-admin/', 
'testcookie' è 1, 


try: 
# 不 需要 验证 码 直接 登录 成 功 
login page = session.post(post url, data-postdata, headers-headers) 
login code login page.text 
print(login page.status code) 
sprint (login code) 
except: 
pass 
session.cookies.save|() 


LE 
. 


if name == ' main 
agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10 12 3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36' 
headers = { 
"Host": "www.santostang.com", 
"Origin": "http://www.santostang.com", 


"Referer":"http://www.santostang.com/wp-login.php", 
'User-Agent': agent 

} 

if isLogin ( 
print (' 

else: 
login('a12345', 'test') 


js 
您 已 经 登录 ') 


首先 创建 一 个 session， 在 session 中 党 试 加 载 过 去 可 能 保存 的 cookie， 然 后 用 isLogin() 访 问 该 账户 的 个 人 信息 页 面 ， 以 判断 是 否 已 经 登录 。 如 果 已 经 登录 ， 就 可 以 直接 用 这 个 session 访 问 其 他 网 页 获取 
数据 。 


如 果 尚 未 登录 ， 就 调用 login0 函 数 登 录 网 页 ， 并 保存 cookie， 使 得 下 次 可 以 方便 调用 。 


11.2. 验证 码 的 处 理 


在 平时 使 用 用 户 名 和 密码 登录 网 站 的 时 候 ， 不 免 要 输入 验证 码 ， 以 第 9 章 介 绍 的 设置 验证 码 的 内 容 来 看 ，12306 火 车 票 订 票 网 站 设置 复杂 的 验证 码 可 以 防止 恶意 订 票 程序 的 刷 票 行为 。 在 网 络 他 虫 程序 处 
理 表单 的 时 候 ， 我 们 也 需要 通过 验证 码 的 检测 才能 完成 表单 的 上 传 。 


验证 码 (CAPTCHA) 是 “Completely Automated Public Turing test to tell Computers and Humans Apart" (全 自动 区 分 计算 机 和 人 类 的 图 灵 测 试 ) 的 缩写 ， 是 一 种 区 分 用 户 是 计算 机 还 是 人 的 
公共 全 自动 程序 ， 可 以 防止 恶意 破解 密码 、 刷 票 、 论 坛 灌水 ， 以 及 黑客 用 特定 程序 暴力 破解 密码 的 方式 进行 不 断 的 登录 尝试 。 


验证 码 是 由 计算 机 生成 的 ， 用 于 评判 一 个 问题 ， 必 须 由 人 类 才能 解答 ， 所 以 能 够 用 验证 码 来 区 分 人 类 和 计算 机 。 本 节 将 以 在 笔者 的 博客 注册 账号 为 例 来 介绍 网 络 聆 虫 中 对 验证 码 的 处 理 。 注 册页 面 的 网 
址 是 http://www.santostang.com/wp-login.php?action=register， 如 图 11-7 所 示 。 


KA 注册 去 单 Santos- x 


CQ 外 不 安全 | wwwsantostang.com/wp-login.php?action=register 


| 在 这 个 站 点 注册 


图 11-7 注册 页 面 
在 网 络 聆 虫 中 ， 处 理 验证 码 主要 有 两 种 方式 : 
(1) 人 工 输入 处 理 。 


(2) OCR 识别 处 理 。 


11.2.1 如 何 使 用 验证 码 验证 


打开 网 页 后 ， 可 以 用 Chrome 浏 览 器 的 “审查 元 素 ” 功 能 找到 form 表 单 需要 的 input， 如 图 11-8 所 示 。 
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c CQ Q*z$|wwwsantostang.com/wp-login.php?action- 


在 这 个 站 点 注册 


— 


[w d] Elements Cons E Network erformance Memory X Application Security Audits Adblock Plus Q 1 


Computed Event Listeners 


<!--[if IE 8]> 

«html xmins-"nttp://www.w3.0rg/1999/xhtml" class="ie8" lang-"zh-CN"» ;hov .cls 
<![endif]--> 
[if !(IE 8) ]><!--> 


/script 


/script 


pt sr 


pt src-"chrome-extension://ljdobmomdgdliniojadhoplhkpialdid/page/runScript.js 
[endif] 
.C/head 

r class-"login login-action-register wp-core-ui 


background: > | |#fbfbfb; 


locale-zh-cn 
iv id-"login = 
hl ? form load-styles.php.n&ver- 
ELT l A DADA TEE .login input[type=text] | 
s-"message register OTER Mihi Ep Font ud oe Mok 
" «form name-"registerforn" id-"registerform" action-"http://www.santostang.com/wp-login.php?action-register" method-"post width: 100%: i 
~~: Ąą. . "Il LI 75 
novalidate-"novalidate padding:» 3px; 
/p margin: 2px 6px 16px 0; 
, 1 
Jp 
Pip class="captcha-title">.</p 
input type="text" name-"ux txt captcha challenge field" id= 


clas 
n 


input[type=tex load-sty 


'ux txt captcha challenge field" style-"display:block;" 9 sea 
img src-' class-"raptcha code img" id-"captcha code img" - j 
style-"margin-top:10px; cursor:pointer; border:@px solid #cccccc 
img class-"refresh-img" style-"cursor:pointer;margin-top:9px;vertical-align: top;" onclick-"refresh();" alt-"Reload Image" 
height-"16" width-"16" src-"http://www.santostang.com/wp-content/plugins/captcha-bank/assets/global/img/refresh-icon.png" 

><script type-"text/javascript"»..«/script 
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图 11-8 ”找到 form 表 单 需要 的 input 


按照 前 面 提 到 的 方法 找到 该 表单 中 所 有 的 input。 为 了 不 落下 任何 一 个 input， 可 以 使 用 Ctrl+F 快 捷 键 的 查找 功能 。 如 图 11-9 所 示 ， 输 入 <input 找 到 了 5 个 需要 输入 的 参数 。 


img*captcha code img.captcha code img 


input aw 


图 11-9 ”输入 <input> 


这 5 个 input 参 数 分 别 是 : 


(1) 用 户 名 ，key 值 为 user login， 如 图 11-10 所 示 。 


- 


el for-"user logi 


input type-"text" name-"user login" id-"u 


FT m = 
f laDel 


图 11-10 用 户 名 的 键 值 


(2) 电子 邮件 ，key 值 为 user email， 如 图 11-11 所 示 。 


label for-"user email 


user email" id-"user email 


"= 


图 11-11 电子 邮件 的 键 值 


(3) 3S$4F&B, keyf&73ux txt captcha challenge field， 如 图 11-12 所 示 。 


‘input type="text” name-"ux txt captcha challenge field” id-"ux txt captcha challenge field” 


图 11-12 WE (AFEA) 的 键 值 


(4) 隐藏 ，key 值 为 redirect to，value 值 为 空 ， 如 图 11-13 所 示 。 


input type-"hidden" name-"redirect to 


图 11-13 ”隐藏 的 键 值 


(5) 提交 ，key 值 为 wp-submit， 但 是 我 们 不 需要 提交 ， 如 图 11-14 所 示 。 


«p class-"submit" 


input type-"submit" name-"wp-submit" id-"wp-submit lass n button-primary button-large' 


value=" za": 
1 / p 


图 11-14 提交 的 键 值 


除了 这 几 个 input 参 数 ， 我 们 还 需要 获取 验证 码 图 片 的 位 置 ，id 为 captcha_code_img， 后 续 需要 将 图 片 中 的 字母 填 入 。 如 图 11-15 所 示 。 
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input type="text” name-"user login" id-"user login" class-"input" value size-"28 


Y" label for-"user email' 


"电子 邮件 ” 


‘input type-"email" name-"user email" id-"user emall" class-"input" value size="25 
«/ label; 
7" 
<p class="captcha-title">..</p 
input type-"text" name-"ux txt captcha challenge field" id-"ux txt captcha challenge field" style-"display:block; 
‘img src-"http://www.santostang.com/wp-admin/admin-ajax.php?captcha codez91829" class-"captcha code img" id= 
"captcha code img" style-"margin-top:18px; cursor:pointer; border:@px solid #cccccc"> == $8 


图 11-15 “验证 码 图 片 


11.2.2 ”人 工 方 法 处 理 验 证 码 


人 工 方法 处 理 就 是 在 爬虫 程序 运行 的 时 候 弹 出 一 个 验证 码 输入 框 ， 我 们 需要 手动 输入 验证 码 。 这 需要 我 们 守 在 计算 机 面前 ， 才 能 保证 输入 验证 码 的 准确 性 。 下 面 介绍 使 用 人 工 方法 处 理 验证 码 的 步骤 。 


步骤 01 输入 相应 的 匹配 码 。 我 们 定义 了 get_captcha0 轧 数 ， 它 会 使 用 GET 方 法 获取 那 张 si_code 的 验证 码 图 片 ， 并 存储 至 源 代码 所 在 的 地 址 。 在 这 之 后 ， 如 果 安 装 了 Pillow 库 ， 就 会 使 用 open0 将 验证 码 图 


KATH; 如 果 没 有 安装 Pillow 库 ， 就 需要 手动 找到 并 打开 这 张 图 片 ， 之 后 输入 图 片 中 的 验证 码 。 


Pillow 可 以 使 用 pip 安 装 : pip install pillow, 


def get captcha(): 

# 获 取 验 证 码 图 片 所 在 的 url 

r= session.get('http://www.santostang.com/wp-login.php?action-register', headers-headers) 
soup = BeautifulSoup(r.text, "lxml") 

captcha url = soup.find("img", id="captcha code img") ["src"] 

# 获取 验证 码 图 片 D 
r = session.get(captcha url, headers-headers) 
with open('captcha.jpg', 'wb') as f: 
f.write (r.content) 

f.close() 


try: 


im = Image.open('captcha.jpg') 

im. show () 

im.close () 
except: 

print (u' 请 到 Ss 目录 找到 captcha.jpg 手动 输入 ' $ os.path.abspath ('captcha.jpg') ) 
captcha = input ("please input the captcha\n>") 
return captcha 


步骤 02 ”准备 注册 上 交 的 表单 。 使 用 registefr 函 数 将 表单 中 的 数据 准备 好 ， 加 上 验证 码 一 起 ， 提 交 POST 请 求 ， 并 进行 注册 。 若 输出 打印 结果 为 200， 则 表示 注册 成 功 。 


def register(account, email): 
post url 'http://www.santostang.com/wp-login.php?action-register' 
postdata { 
'user login': account, 
'user email': email, 
'redirect to': '', 
} 
+ 调用 get captcha 函 数 ， 获 取 验 证 人 码 数 字 
postdata["ux txt captcha challenge field"] = get captcha() 
# 提交 POST 请 求 ， 进 行 注 册 
register page = session.post(post url, data-postdata, headers-headers) 
# 各 输出 打印 结果 为 200， 则 表示 注册 成 功 


print (register page.status code) 


步骤 03 输入 用 户 和 邮箱 ， 调 用 前 面 3 个 步骤 写 好 的 函数 来 执行 程序 。 


import requests 

from bs4 import BeautifulSoup 
import re 
import os 
from PIL import Image 

if name == ' main ': 


agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10 12 3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36' 


headers = { 
"Host": "www.santostang.com", 
"Origin": "http://www.santostang.com", 
"Referer": "http://www. santostang.com/wp-login.php", 
'User-Agent': agent 


} 
session = requests.session() 

# 调用 注册 函数 进行 注册 

account = '18341432113' # 改 成 自己 用 户 名 
email = 'al2345@qq.com' # 改 成 自己 邮箱 
register (account, email) 


在 程序 运行 的 时 候 需 要 手动 输入 验证 码 。 如 果 安 装 了 Pillow， 就 会 直接 打开 验证 码 图 片 ， 如 图 11-16 所 示 (每 次 验证 码 都 会 不 一 样 ) 。 


图 11-16 ”验证 码 


这 时 在 输入 框 中 输入 WD6N， 按 回 车 键 之 后 ， 如 果 出 现 200， 就 表示 注册 成 功 。 


Please input the captcha 
>WD6N 
200 


这 样 的 人 工 方法 处 理 昌 然 没有 达到 100% 的 完全 自动 化 ， 但 是 能 够 保证 每 次 验证 码 输 入 的 正确 性 ， 是 一 种 比较 方便 、 快 捷 的 方式 。 


11.2.3 ”OCR 处 理 验 证 但 


前 面 介绍 了 人 工 识别 图 片 的 方法 ， 本 小 节 将 介绍 使 用 图 像 识 别 技术 输入 验证 码 的 方法 。 这 种 方法 称 为 OCR (Optical Character Recognition， 光 学 字符 识别 ) ， 也 就 是 使 用 字符 识别 方法 将 形状 翻译 成 


计算 机 文字 的 过 程 。 为 了 使 用 Python 将 图 像 识 别 为 字母 和 数字 ， 我 们 需要 用 到 Tesseract 库 ， 它 是 Google 支 持 的 开源 ocr 项 目 。 
Tesseract 的 安装 需要 分 成 三 步 。 


步骤 01 安装 Tesseract-ocr。 在 Windows 系 统 下 ， 官 方 提供 4.0.0 版 本 ， 下 载 地 址 为 https://github.com/UB-Mannheim/tesseract/wiki， 可 以 下 载 exe 程 序 


J+ 
3 Tesseract-ocfo 


nec 


Ro 


在 Linux 系 统 下 ， 可 以 使 用 apt install tessetact-oct 安 


步骤 02 将 Tesseract-ocr 加 入 环境 变量 。 复 制 安装 路 径 ， 上 默认 为 C:\Program Files(x86)VTesseract-OCR ， 添 加 到 环境 变量 Path 中 。 具 体 请 右 击 此 电脑 > 单 击 高 级 系统 设置 > 环境 变量 >Path。 如 图 11-17 所 示 


C:\Program Files (x86) nte ntel(R) Management Engine Comp... HEU) 


系统 变量 (9) C:\Program Files\Intel\Intel(R) Management Engine Component... 

| C:\Program Files (x86)\NVIDIA Corporation\PhysX\Common 下 移 (O) 
C:\Users\santostang\AppData\Local\Continuum\miniconda3 

D:\Program Files\Java\jdk1.8.0 181\bin 

D:\Spark\bin 

D:\Hadoop\bin 


JAVA HOME 
NUMBER OF PROCESSORS 
OS 

Path 

PATHEXT 

PROCESSOR ARCHITECT... 
PROCESSOR IDENTIFIER 


D:\scala\bin 
D:\Program Files\Intelli) IDEA Community Edition 2018.2\plugin... 


Ce I hromeMApplication 


图 11-17 添加 环境 变量 
使 用 pip 安 装 Tessetact: pip install pytessetact。 


这 时 ， 需 要 检查 Tesseract 是 否 安装 成 功 。 打 开 cmd， 输 入 tesseract。 如 果 出 现 如 图 11-18 所 示 的 画面 ， 则 安装 成 功 。 


Microsoft Windows [LARA 10. 0. 15063] 7 
(c) 2017 Microsoft Corporation. REPARA. 
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\Santostang>teSSeract 


(D 
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--help | --help-extra | --version 
--list-langs 
imagename outputbase [options...] [configfile... 


— 
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^^ 
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mi & 


(D (D (D 
- 
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OCR options: 
L+LANG | specify language(s) used for OUR. 
se options must occur before any configfile. 


options: 
Show this help message. 
extre show extra help for 
lon Show version information. 
langs List available languages fc 


'Asantostang?a 


图 11-18 添加 环境 变量 


假设 刚刚 获取 的 验证 码 图 片 如 图 11-19 所 示 ， 接 下 来 需要 识别 出 其 中 的 数字 和 字母 。 


图 11-19 ”验证 码 图 片 


使 用 pillow 和 pytesseract 识 别 图 片 中 数字 和 字母 的 步骤 如 下 : 


步骤 01 把 彩色 图 像 转 化 为 灰 度 图 像 。 通 过 灰 度 处 理 可 以 把 色彩 空间 由 RGB 转化 为 HIS。 


from PIL import Image 


im = Image.open('captcha.jpg') 
gray = im.convert ('lL') 
gray.show() 


gray.save("captcha gray.jpg") 
得 到 的 结果 如 图 11-20 所 示 。 


m——————————— ———,G"—c——— 


图 11-20 彩色 图 像 转 化 为 灰 度 图 像 


步骤 02 ”二 值 化 处 理 。 可 以 看 到 ， 验 证 码 中 文本 的 部 分 颜色 都 比较 深 ， 因 此 可 以 把 大 于 某 个 临界 灰 度 值 的 像素 灰 度 设 为 灰 度 极 大 值 ， 把 小 于 这 个 值 的 像素 灰 度 设 为 灰 度 极 小 值 ， 从 而 实现 二 值 化 〈 一 般 


设置 为 0~1) 。 


threshold = 150 
table = [] 
for i in range (256): 


if i < threshold: 

table.append(0) 
else: 
table.append(1) 


itj 


out = gray.point (table, 
out . show () 
out.save ("captcha thresholded. jpg") 


上 述 两 步 都 是 为 图 片 降 噪 ， 也 就 是 把 不 需要 的 信息 全 部 去 掉 ， 比 如 背景 、 干 扰 线 、 干 扰 像素 等 ， 只 剩 下 需要 识别 的 文字 。 得 到 的 结果 如 图 11-21 所 示 。 


图 11-21 HE 


步骤 03 使 用 Tesseract 进 行 图 片 识 别 。 


import pytesseract 
th = Image.open('captcha thresholded.jpg') 
print (pytesseract.image to string (th)) 


我 们 可 以 看 到 结果 是 WD6N。 


使 用 OCR 技术 正确 识别 出 了 结果 。 但 是 也 不 能 高 兴 得 太 早 ， 因 为 这 个 验证 码 比较 简单 ， 在 使 用 OCR 技术 验证 其 他 验证 码 的 时 候 效 果 不 一 定好 ， 比 如 图 11-22 所 示 的 验证 码 。 


图 11-22 OCR 技术 验证 


使 用 OCR 技术 识别 的 结果 是 552,9， 这 个 结果 并 不 是 真正 的 验证 码 结果 ， 真 正 的 结果 是 ?92A。OCR 将 第 二 个 字母 识别 成 了 5， 另 外 ， 由 于 一 条 曲线 的 存在 扰乱 了 后 面 的 识别 ， 字 母 A 被 识别 成 了 ,9。 


这 样 是 不 是 说 OCR 方法 就 没有 用 了 呢 ?” 在 需要 验证 的 验证 码 比较 简单 、 文 字 和 背景 比较 容易 区 分 、 没 有 扰乱 的 曲线 或 字符 之 间 分 割 得 比较 好 时 ，Tesseract 的 解析 效果 还 是 非常 好 的 。 例 如 ， 图 11-23 所 
示 的 验证 码 ，Tesseract 基 本 能 够 正确 识别 。 如 果 你 对 深度 学 习 感 兴趣 的 话 ， 还 可 以 使 用 TensorFlow 自 己 进行 训练 一 个 识别 验证 码 的 工具 ， 效 果 非 常 好 。 


图 11-23 ”简单 的 验证 码 


11.3 BE 


本 章 介绍 了 如 何 使 用 Python 程序 登录 表单 、 如 何 使 用 程序 识别 验证 码 。 其 实 ， 大 部 分 网 站 不 欢迎 使 用 程序 进行 登录 ， 因 为 需要 登录 才能 查看 的 数据 不 属于 公开 数据 。 因 此 ， 本 章 的 程序 仪 供 读者 练习 ， 
请 不 要 使 用 此 程序 获取 非 公 开 数 据 或 批量 注册 ， 若 出 现 了 问题 ， 请 自负 责任 。 


第 12 草 ”服务 器 采集 


前 面 介绍 的 都 是 本 机 上 的 网 络 爬 贝 ， 包 括 如 何 获取 网 页 、 如 何 解 析 网 页 上 的 数据 以 及 将 数据 存储 在 文件 或 数据 库 中 。 除 此 之 外 ， 还 介绍 了 在 遇 到 爬 求 问题 的 时 候 的 各 种 解决 方法 。 


本 章 将 介绍 一 种 方法 ， 能 够 解放 你 的 计算 机 ， 让 有 疏 虫 程序 运行 在 “ 云 ” 上 ， 也 能 够 让 你 随意 改变 自己 的 了 PP 地 址 ， 进 而 走出 上 爬 吕 被 封 IP 的 困境 。 


12.1 ”为 什么 使 用 服务 器 采集 


经 过 前 几 章 的 学 习 ， 大 家 可 能 已 经 习惯 在 本 机 的 Jupyter 上 写 有 季 虫 程序 了 。 如 果 是 小 规模 的 候 虫 或 测试 他 虫 程序 ， 这 也 许 已 经 绰绰有余 。 但 当 编 写 大 规模 的 息 虫 程序 时 ， 在 服务 器 上 部 署 他 虫 就 不 可 避免 


了 。 使 用 服务 器 采集 有 两 大 原因 : 
(1) 大 规模 爬虫 的 需要 。 


(2) 防止 IP 地 址 被 封杀 。 


12.1.1. 大 规模 爬虫 的 需要 


你 知道 世界 上 最 大 的 网 络 聆 虫 是 什么 吗 ” 答 案 是 搜索 引擎 。 
根据 谷歌 官方 网 站 的 统计 数字 ， 谷 歌 搜 索引 警 已 经 收录 了 超过 130 万 亿 个 网 页 ， 而 且 还 在 持续 而 迅速 地 增长 中 ， 这 占用 了 超过 100PB (等 于 100000TB) 的 存储 。 


本 书 中 的 聆 虫 程序 在 谷歌 搜索 引擎 面前 就 像 是 地 球 上 的 一 只 小 蚂蚁 。 也 许 我 们 的 怜 虫 永远 不 会 有 谷歌 的 体 量 ， 但 当 有 一 天 需要 怜 取 的 不 再 是 测试 数据 ， 而 是 要 从 多 个 网 站 收集 数据 的 时 候 ， 就 需要 大 规 
FSRSITE HR. 
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539b, SRM MERABSGEMR, ARAN AREJA. WRIA, MARETA FANH, (BiESDERIISET00 24 A — HER, nIBeRESEA EI—ARJRJIBJ. BLA, ARSE 
AIDAN, ARZEN nak ANERER, HATASI eee. 


分 布 式 聆 虫 是 比较 复杂 的 系统 ， 如 果 读 者 对 分 布 式 聆 虫 感 兴趣 ， 可 以 搜索 Celery 和 Redis 部 署 分 布 式 爬 虫 相关 的 内 容 。 


12.1.2 ”防止 |P 地 址 被 封杀 
前 面 已 经 介绍 过 如 何 让 公 忠 程序 模仿 人 类 正常 的 访问 ， 即 调整 间隔 时 间 和 header。 但 是 公 忠 程序 的 目的 是 大 量 获取 网 站 上 的 数据 ， 免 不 了 非 正常 地 多 次 访问 某 个 网 站 。 这 时 网 站 可 以 通过 多 次 访问 进而 
封杀 |P， 如 果 肥 虫 只 是 在 单机 上 运行 ， 一 旦 被 圭 杀 了 IP， 肥 中 就 会 变 得 举步维艰 。 


当然 ， 在 个 人 计算 机 上 运行 他 虫 也 有 应 对 的 方法 ， 可 以 维护 一 个 代理 IP 池 。 但 是 网 上 的 免费 代理 大 多 失效 很 快 ， 而 且 运 行 缓慢 ， 就 算是 收费 的 代理 IP 也 十 分 不 稳定 ， 这 样 的 代理 池 维 护 起 来 十 分 不 讨 
I5, 


使 用 动态 |P 拨 号 服务 器 的 ADSL 拨 号 方法 和 Tor 进 行 代理 访问 的 方法 可 以 成 功 修改 访问 网 站 的 I|P， 效 果 非 常 好 。 下 面 进行 详细 介绍 。 


12.2 ”使 用 动态 IP 拨 号 服务 器 


动态 |P 拨 号 服务 器 正如 其 名 ，IP 地 址 是 可 以 动态 修改 的 。 动 态 IP 拨 号 服务 器 并 不 是 什么 高 大 上 的 服务 器 ， 相 反 ， 属 于 配置 非常 低 的 一 种 。 我 们 看 中 的 不 是 它 的 计算 能 力 ， 而 是 能 够 实现 秒 换 IP 地 址 。 
拨号 上 网 有 一 个 独特 的 特点 ， 就 是 每 次 拨号 都 会 换 一 个 新 的 I|P 地 址 。 家 庭 中 的 上 网 方式 多 数 都 用 的 是 ADSL 拨 号 上 网 ， 也 就 是 断 开 网 络 后 再 拨号 一 次 ， 外 网 |P 就 会 换 成 另 一 个 。 


一 般 来 说 ， 这 个 1P 池 很 大 ， 可 能 有 多 个 AB 段 ，IP 数 量 基 本 上 用 不 完 。 对 于 有 息 虫 来 说 ， 这 简直 是 大 杀 器 ， 能 够 轻松 解决 封杀 IP 的 限制 。 


12.2.1 ”购买 拨号 服务 器 
购买 动态 IP 拨 号 服务 器 可 以 在 网 页 上 搜索 “ADSL 服 务 器 ”或 “动态 IP 服 务 器 ”， 在 搜索 结果 中 可 以 看 到 很 多 供应 商 ， 选 择 一 个 包月 的 ADSL 拨 号 服务 器 即 可 。 有 些 供应 商 还 提供 1 元 钱 测试 24 小 时 的 服 
$5. 


这 里 选择 Windows X RAAS PHS ARS ENER TO RBS ROS BE. 


12.2.2 “登录 服务 器 


购买 动态 |P 拨 号 服务 器 之 后 会 获得 服务 器 地 址 、 用 户 名 和 密码 ， 还 会 获得 拨号 上 网 的 用 户 名 和 密码 ， 例 如 : 
服务 器 地 址 : 117.18.69.122 

服务 器 用 户 名 : administrator 

服务 器 密码 : pwd 

拨号 上 网 用 户 名 : 07551234567 

拨号 上 网 密码 : 12345 

接 下 来 讲解 动态 |P 拨 号 和 登录 服务 器 的 步骤 。 


步骤 01 在 “开始 ”菜单 中 搜索 mstsc， 找 到 一 个 mstsc.exe 文 件 ， 单 击 并 打开 ， 如 图 12-1 所 示 。 


文件 (1) 
) upgrade, bulk.xml 


P 直 看 更 多 结果 


图 12-1 搜索 mstsc 


步骤 02 在 弹出 的 “远程 桌面 连接 ”对 话 框 中 填写 登录 的 服务 器 IP 地 址 。 如 果 有 端口 ， 就 把 端口 号 写 上 ， 如 图 12-2 所 示 。 


计算 机 (0): T7788sx3. 9966. org: 17276] 


RH PE: SX1-1T2T6^Administrator 


当 您 连接 时 将 向 您 询问 任 据 。 


= ARO 


图 12-2 “远程 桌面 连接 ”对 话 框 


步骤 03 在 弹出 的 “登录 到 Windows” 对 话 框 中 输入 用 户 名 和 密码 登录 ， 如 图 12-3 所 示 。 


登录 到 Windows 


Copyright © 1985-2001 
Microsoft Corporation 


RIP QD: 


HS (P): 


图 12-3 “登录 到 Windows” 对 话 框 


12.2.3 ”使 用 Python 更 换 IP 


进入 服务 器 后 ， 打 开 宽 带 连 接 界面 ， 发 现 计 算 机 已 经 连 网 ， 如 图 12-4 所 示 。 如 果 需 要 换 一 次 IP， 就 要 断 开 后 重新 连接 宽带 。 


9, oT», 140 


Ü * 
0 


CREC 


EJ12-4 ”已 连接 上 网 


这 里 可 以 使 用 Python 控 制 OS， 从 而 实现 断 开 宽带 连接 、 重 新 连接 宽带 的 功能 。 实 现代 码 如 下 : 


mti Ha 
2 天 18:33:53 
1.4 Gbps 


ES] 


5, 009, 5T2 
0 * 
0 


import os 


g adsl account = {"name": "adsl", 
"username": "http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/18359/OEBPS/Text/...", 
"password": "http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/18359/OEBPS/Text/..."] 


class Adsl (object): 

# init : name: aqs1 名 称 

def init (self): 
self.name = g adsl account ["name"] 
self.username = g adsl account ["username"] 
self.password = g adsl account ["password"] 


# connect : 宽带 拨号 
def connect (self): 
cmd str = "rasdial $s Ss $s" $ (self.name, self.username, self.password) 
os.system(cmd str) 
time.sleep (5) 


# disconnect : 断 开 宽带 连接 

def disconnect (self): 
cmd str = "rasdial $s /disconnect" $ self.name 
os.system(cmd str) 
time.sleep (5) 


# reconnect : 重新 进行 拨号 

def reconnect (self): 
self.disconnect () 
self.connect () 


If name == ' main ': 
A = Adsl() 
A.reconnect () 


首先 定义 g_ adsl _ account 变量 。 注 意 里 面 的 name 属 性 ， 如 果 是 简体 中 文系 统 ， 值 应 该 为 “宽带 连接 ”; 如 果 是 英文 系统 ， 值 应 该 是 adsl|。 另 外 ， 两 个 属性 username 和 password 应 该 填 拨 号 上 网 的 用 
户 名 和 密码 。 


接 下 来 需要 定义 一 个 object 为 AdsI0， 并 且 使 用 其 中 的 函数 reconnect0。reconnect() 首 先 会 使 用 disconnect(0 切 断 宽 带 连接 ， 然 后 使 用 connect(0 重 新 建立 宽带 连接 ， 这 样 I1P 应 该 可 以 更 换 成 功 。 


我 们 可 以 把 上 述 代码 保存 在 changelP.py 中 ， 方 便 以 后 调用 。 


12.2.4 ”结合 他 虫 和 更 换 IP 功 能 


我 们 可 以 将 聆 虫 和 更 换 IP 功 能 结合 起 来 ， 也 就 是 说 当 爬 虫 结果 返 回 错误 的 时 候 ， 可 以 更 换 一 个 |P， 然 后 使 用 一 个 递归 函数 进行 怜 了 到， 代码 如 下 : 


import requests 
import time 
import random 
import changeIP 


link = "http://www.santostang.com/" 
headers = {'User-Agent' : 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'} 


def scrapy(url, num try = 3): 
try: 
r — requests.get(url, headers- headers) 
html = r.text 
time.sleep (random. randint (0,2) +random. random () ) 
except Exception as e: 
print (e) 
html = None 
if num try >0: 
x = changeIP.adsl() 
x. reconnect () 
html = scrapy(url, num try-1) 
return html B 


result = scrapy (link) 


将 上 面 的 爬虫 程序 和 changelP.py 放 在 同一 个 文件 夹 中 ， 才 能 使 用 import changelP 将 更 换 IP 的 class 导 入 。 


这 里 定义 了 一 个 负责 肛 虫 的 函数 scrapy0)， 最 大 的 尝试 次 数 为 3。 如 果 有 息 虫 过 程 报错 ， 并 且 尝 试 次 数 大 于 0， 就 会 调用 changelP 重 新 拨号 上 网 ， 达 到 | 更换 IP 的 目的 。 更 换 IP 之 后 ， 表 使 用 递归 冰 数 执行 一 
次 scrapy0 函 数 ， 就 能 把 结果 有 息 取 下 来 了 。 


12.3 ”使 用 Tor 代 理 服务 器 


Tor (The Onion Router, "FAKE" ) 是 互联 网 上 用 于 保护 隐私 最 有 力 的 工具 之 一 。 如 果 我 们 不 使 用 Tor， 网 络 请 求 就 会 直接 发 送 给 目标 服务 器 。 


相 比 之 下 ， 如 果 使 用 Tor 发 送 网 络 请 求 ， 客 户 端 就 会 选择 一 条 随机 的 路 径 到 目标 服务 器 。 这 条 随机 的 路 径 中 间 会 经 过 多 个 Tor 的 节点 ， 而 且 使 用 “洋葱 路 由 ”加 密 技术 ， 使 得 任何 节点 都 不 能 偷 取 通信 数 
据 ， 并 且 该 请 求 的 传送 路 径 难 以 追踪 ， 也 查 不 出 起 点 在 哪儿 ， 如 图 12-5 所 示 。 


| | P. | 

Eg) How Tor Works: 2 Ry Tornode 
oe @ unencrypted link 
—». encrypted link 


Alice 


Step 2: Alice's Tor client 
picks a random path to 


destination server. Green ii . 
links are encrypted, red od 2o 


links are in the clear. 


图 12-5 “Rw” Je BRR 


这 就 好 像 将 一 份 快递 从 深圳 寄 到 北京 : 一 般 为 了 快捷 方便 ， 快 递 公司 可 能 直接 将 快递 发 往 北京 ; Tor 网 络 为 了 让 北京 的 接收 者 不 知道 是 从 何 处 寄 过 来 的 ， 将 快递 随机 发 往 一 些 节点 (如 深圳 -南昌 -武汉 - 
济南 -石家庄 -北京 ) ， 整 个 路 径 都 会 通过 “洋葱 路 由 ”技术 加 密 。 每 一 个 站 点 的 入 站 和 出 站 通信 都 可 以 被 查 到 ， 但 是 想 要 知道 真正 的 起 点 和 终点 ， 几 乎 是 不 可 能 的 。 


因此 ， 我 们 可 以 利用 Tor 技 术 改变 请 求 的 |P 地 址 ， 作 为 一 种 终极 的 防止 |P 封 锁 的 吟 虫 方案 。 


12.3.1 ”Tor 的 安装 


对 于 不 同 的 操作 系统 ，Tor 的 安装 方法 有 所 不 同 。 相 对 于 Mac OS 或 Linux 来 说 ， 在 Windows 下 使 用 Tor 比 较 复 杂 。 下 面 将 会 介绍 在 Windows 系 统 下 Tor 的 安装 步骤 。 对 于 Mac OS 或 Linux 系 统 的 安装 ， 
可 以 参照 https://www .torproject.org/docs/debian.html.en,。 


Tor 的 安装 方式 分 成 Expert Bundle 和 Tor Browser (Tor 浏 览 器 ) , Expert Bundle 是 非 图 形 化 界面 的 使 用 Tor，Tor 浏 览 器 是 一 个 可 以 隐藏 自己 |P 使 用 的 浏览 器 。 在 Windows 系 统 下 ， 我 们 最 好 选择 Tor 
浏览 器 ， 有 了 程序 化 的 安装 界面 ， 其 安装 过 程 也 会 更 加 简单 快捷 。 


步骤 01 下 载 Tor 浏 览 器 。 进 入 Tot 官 方 网 站 下 载 Tor 浏 览 器 ， 地 址 为 https://www.torproject.org/projects/torbrowset.html.en， 如 图 12-6 所 示 。 


Sofware & Services. = Ann * Orbot = Tails = TorBirdy = Omonoo * Metrics Portal = Pluggable Transports = Shadow = Tor2zWeb 


What is Tor Browser? 


The Tor software protects you by bouncing your communications around 

| ^X a distributed network of relays run by volunteers all around the world: it 
BROWSER prevents somebody watching your Internet connection from learning what 
sites you visit, it prevents the sites you visit from learning your physical 
location, and it lets you access sites which are blocked. 


- 


DOWNLOAD Tor Browser lets you use Tor on Windows, Mac OS X, or Linux without 


needing to install any software. It can run off a USB flash drive, comes 
with a pre-configured web browser to protect your anonymity, and is self- 
contained (portable). 


i Tor Browser 


Installation Instructions 
Windows * Mac OS X -= Linux Do you like what we do? Please consider making a donation » 


图 12-6 ”下载 Tot 浏 览 器 


步骤 02 安装 和 设置 Tor 浏 览 器 。 下 载 完 成 后 ， 直 接 打开 安装 文件 ， 单 击 Install， 安 装 在 相应 文件 夹 中 即 可 ， 如 图 12-7 所 示 。 


4 Tor Browser Setup = O| x | 


Choose Install Location | 
Choose the folder in which to install Tor Browser. | 


Setup will install Tor Browser in the following folder. To install in a different folder, click 
Browse and select another folder. Click Install to start the installation. 


Destination Folder 


m — A 


C: Users Administrator \Desktop\Tor Browser 


Space required: 137.8MB 


Nullsoft Install System v2.51 


图 12-7 ”选择 文件 来 


安装 完成 后 ， 单 击 Finish 开 启 Tor 浏 览 器 的 设置 。 如 果 你 在 中 国内 地 ， 无 法 直接 单 击 Connect 连 接 Tor， 那 么 可 以 单 击 Configure 进 行 设置 ， 如 图 12-8 所 示 。 在 下 一 个 对 话 框 中 ， 选 中 Tor 是 否 审查 ， 然 后 
选择 Select a built-in bridge (选择 已 提供 的 桥 ) ， 如 果 你 在 中 国内 地 ， 那 么 需要 使 用 中 间 的 桥 才 能 连接 Tor 的 服务 ， 然 后 在 下 拉 列 表 框 中 选择 “meek-zure(works in China)”， 单 击 Connect 按 钮 ， 如 图 
12-9 所 示 。 


Connect to Tor 


TOf | Browser 


Click "Connect" to connect to Tor. 


Click "Configure" to adjust network settings if you are in a country that censors Tor (such as 
Egypt, China, Turkey) or F you are connecting from a private network that requires a proxy. 


| 


Connect Configure 


For assistance, visit torproject.org/about/contact. html& support 


Exit 


图 12-8 设置 Tot 浏 览 器 


Tor Network Settings 


k-z] Tor is censored in my country 
© Select a built-in bridge @) meek-azure (works in China) 


© Request a bridge from torproject.org 
© Provide a bridge I know 


DI use a proxy to connect to the Internet CD 


For assistance, visit torprojecr.org/about/contacr himli support 


< Back Connect 


图 12-9 ISP FH Ai E Tor 


这 时 会 出 现 一 个 连接 对 话 框 ， 如 图 12-10 所 示 。 顺 利 完 成 之 后 就 会 打开 Tor 浏 览 器 ， 如 图 12-11 所 示 。 


Establishing a Connection = O 
l d f 


Please wait while we establish a connection to the Tor network. This may take several 
minutes. 


Browser 


Establishing an encrypted directory connection 


For assistance, visit torproject.org/about/contact.html#support 
Cancel 


图 12-10 ”连接 对 话 框 


TOR: ETREHGTH IM NUMBERS 


Stand up for freedom. 


Give today, and Mozilla will match your donation. 


Count Me In 


Mew to Tor Browser? Tor Br UE 
Lat's get started. 0: 


Explore. Privately. 


You're ready for the word's most private browsing experience. 


Questions? Check our Tor Browser Manual » 


图 12-11 ”Tor 浏览 器 


Tor 可 以 改变 我 们 请 求 的 IP 地 址 。 下 面 先 介绍 在 Python 中 如 何 使 用 Tor， 然 后 介绍 如 何 使 用 Tor 多 次 改变 请 求 的 IP 地 址 。 由 于 Tor 采 用 的 是 Sock 请 求 ， 因 此 需要 安装 PySocks 库 ， 可 以 使 用 pip 进 行 安装 : 
pip install pysocks 
安装 完成 后 ， 可 以 用 下 面 的 代码 完成 利用 Tor 改 变 请 求 的 IP 地 址 。 


import socket 
import socks 
import requests 


# Tor 使 用 9150 端 口 为 默认 的 socks 端 口 

Socks.set default proxy(socks.SOCKS5, "127.0.0.1", 9150) 
Socket.socket = socks.socksocket 

# 获取 这 次 抓 取 使 用 的 IP 地 址 


a= requests .get ("http://checkip.amazonaws.com").text 


print (a) 


在 上 述 代 码 中 ，Tor 的 默认 端口 为 9150， 我 们 使 用 socks 请 求 端口 9150 发 出 每 次 请 求 ， 如 图 12-12 所 示 。 默 认 端 口 可 以 在 Tor 浏 览 器 的 安装 地 址 找到 ， 假 设 把 Tor 浏 览 器 安装 在 CNProgram Files\Tor 
Browser， 默 认 端 口 就 在 C:\Program Files\Tor Browser\Browser\TorBrowser\Data\Tor\torrc-defaults 文 件 中 。 


SocksPort 9150 IPv6Traffic PreferIPv6 KeepAliveIsolateSOCKSAuth 


ControlPort 9151 
CookieAuthentication 1 


图 12-12 ”使 用 9150 端 口 发 出 请 求 


通过 请 求 p.ar 获取 这 次 抓 取 使 用 的 I|P 地 址 ， 这 次 的 输出 结果 是 : 85.248.227.164 (你 的 输出 结果 应 该 和 这 个 不 一 样 ， 因 为 Tor 的 路 径 是 随机 的 ) 。 我 们 可 以 通过 百度 查询 该 
IP 所 在 的 地 址 ， 发 现 与 本 机 的 IP 地 址 不 一 样 ， 如 图 12-13 所 示 。 


iP 本 机 IP: 137.189.206.66 香 洪 特别 行政 区 


85.248.227 164 


85.248.227.1643E Bah atk vg 


本 机 |P 查 看 方法 ”由 地 址 设置 方法 


图 12-13” 抓 取 使 用 的 IP 地 址 


虽然 目标 服务 器 已 经 不 知道 我 们 真正 的 IP 地 址 ， 但 是 如 果 继 续 请 求 该 目标 服务 器 ， 目 标 服务 器 获取 的 请 求 就 会 来 自 于 同一 个 伪装 1P， 导 致 伪装 的 IP 被 封杀 。 因 此 ， 如 果 能 够 改变 伪装 的 IP， 就 完全 不 用 
担心 候 虫 被 封杀 IP 的 问题 了 。 


要 更 新 IP， 可 以 通过 ControlPort 连 接 Tor 的 服务 ， 然 后 发 出 一 个 NEWNYM 的 信号 。 安 装 tor 浏 览 器 的 时 候 已 经 默认 ControlPort 的 端口 是 9151， 如 图 11-14 所 示 。 这 里 可 以 使 用 Python 的 stem 库 完成 上 


首先 ， 使 用 pip 安 装 stem : 


pip install stem 


安装 完成 后 ， 可 以 使 用 下 面 的 代码 实现 抓 取 和 更 换 IP。 注 意 此 处 代码 无 法 在 jupyter notebook 和 运行 ， 需 要 在 其 他 编辑 器 (例如 Pycharm) 运行 。 


from stem import Signal 

from stem.control import Controller 
Socket 
Socks 
request 
time 


[5] 


controller = Controller.from port (port = 9151) 
controller.authenticate () 

socks.set default proxy (socks.SOCKS5, "127.0.0.1", 9150) 
socket.socket = socks.socksocket 


total scrappy time = 0 
total changeIP time = 0 


for x in range(0,10): 
a = requests.get ("http://checkip.amazonaws.com") .text 
print ("第 "，x+1，" 次 IP: ", a) 


timel = time.time|() 

a = requests.get ("http://www.santostang.com/") .text 
#print (a) 

time2 = time.time() 

total scrappy time = total scrappy time + time2-timel 


print ("S", x41, "WME lA: ", time2-timel) 


time3 = time.time() 
controller.signal (Signal .NEWNYM) 
time.sleep (5) 
time4 = time.time() 

total changeIP time = total changeIP time + time4-time3-5 
print ("S", x1, "次 更 换 IP 花 费时 间 : ", time4-time3-5) 


print 
print 


(" 平 均 抓 取 花 费时 间 : ", total scrappy time/10) 
("平均 更 换 IP 花 费时 间 : ", total changeIP time/10) 


这 里 用 到 了 stem 中 的 controller 模 块 ， 通 过 Controller.from port(port=9151) 使 用 ControlPort 的 9151 端 口 ， 并 使 用 controller.authenticate0 进 行 验证 ， 由 于 在 默认 状态 下 不 需要 密码 ， 因 此 括号 中 留 
空 就 可 以 了 。 需 要 更 新 I|P 时 ， 可 以 使 用 controller.signal(Signal.NEWNYM)。 最 后 输出 的 结果 是 : 


第 1 次 IP: 141.170.2.53 

第 1 次 抓 取 花 费时 间 : 4.294245481491089 

第 1 次 更 换 IP 花 费时 间 : 0.0012862682342529297 
第 2 次 IP: 5.148.165.13 

第 2 次 抓 取 花费 时 间 : 4.186239242553711 

第 2 次 更 换 IP 花 费时 间 : 0.0032863616943359375 
第 3 次 IP: 46.105.100.149 

第 3 次 抓 取 花费 时 间 : 4.88327956199646 

第 3 次 更 换 IP 花 费时 间 : 0.004286050796508789 
第 10 次 IP: 178.18.83.215 


第 10 次 抓 取 花 费时 间 : 4.512258291244507 


第 10 次 更 换 IP 花 费时 间 : 0.0012862682342529297 
平均 抓 取 花费 时 间 : 4.693568444252014 
平均 更 换 IP 花 费时 间 : 0.004586362838745117 


这 里 进行 了 10 次 循环 ， 可 以 大 概 佑 算 一 下 使 用 Tor 的 效率 。 每 进行 一 次 循环 ， 抓 取 使 用 的 |P 就 会 更 换 一 次 。 另 外 ， 抓 取 人 花费 的 时 间 和 更 换 IP 人 花费 的 时 间 都 比较 稳定 ， 平 均 抓 取 博 客 主页 花费 的 时 间 为 4.7 
秒 ， 更 换 IP 的 速度 可 以 忽略 不 计 ， 这 里 已 经 减 去 了 休息 的 5 秒 。 


如 果 不 使 用 Tor， 要 正常 抓 取 博客 主页 10 次 ， 和 Tor 的 速度 相 比 怎么 样 呢 ? 


import 
import 


requests 
time 


total scrappy time = 0 


for x in range(0,10): 

timel time .time () 

a = requests.get ("http://www.santostang.com/") .text 
time2 time. time () 
total scrappy time = total scrappy time + time2-timel 
print ("3", x41, "MBER TA: ", time2-timel) 


print ("平均 抓 取 花 费时 间 : ", total scrappy time/10) 


下 面 是 未 使 用 Tor 进 行 抓 取 的 结果 : 
第 1 次 抓 取 花费 时 间 : 2.0871193408966064 
第 2 次 抓 取 花 费时 间 : 3.737213611602783 
第 3 次 抓 取 花费 时 间 : 2.1731245517730713 
第 4 次 抓 取 花费 时 间 : 0.7140407562255859 
第 5 次 抓 取 花费 时 间 : 0.7370424270629883 
第 6 次 抓 取 花 费时 间 : 0.6420366764068604 
第 7 次 抓 取 花费 时 间 : 0.9130520820617676 
第 8 次 抓 取 花费 时 间 : 0.6390366554260254 
第 9 次 抓 取 花费 时 间 : 7.861449718475342 
第 10 次 抓 取 花费 时 间 : 0.6170353889465332 
平均 抓 取 花费 时 间 : 2.0121151208877563 
如 果 不 使 用 Tor， 平 均 抓 取 时 间 就 会 少 了 一 半 多 ， 只 有 2.01 秒 。 看 来 Tor 经 过 多 个 节点 再 到 目标 服务 器 还 是 花 了 不 少时 间 ， 可 能 会 降低 抓 取 效率 。 但 是 它 也 有 不 容 忽视 的 优点 : 
(1) 完全 免费 。 


(2) 更 换 IP 过 程 速度 快 ， 相 比 代理 池 更 稳定 。 


第 13 章 NAEH 


通过 第 1 章 到 第 7 章 的 学 习 ， 应 该 已 经 能 够 请 求 URL 获 取 网 页 数据 ， 并 通过 解析 网 页 存储 数据 了 ， 说 明 已 经 掌握 了 使 用 爬 焉 的 入 门 基础 技术 获取 数据 ， 但 是 这 样 单线 程 的 爬虫 效率 低 ， 会 将 大 量 时 间 浪 费 
通过 第 8 章 到 第 12 章 的 学 习 ， 应 该 能 够 使 用 多 线程 、 多 进程 或 多 协 程 成 们 提升 朴 虫 的 效率 ， 甚 至 通过 将 爬虫 部 署 在 服务 器 上 将 自己 的 个 人 计算 机 解放 出 来 ， 说 明 已 经 能 够 提供 一 个 较为 成 熟 的 爬虫 方案 


但 是 ， 即 使 能 够 将 爬 求 部 署 在 不 同 服务 器 上 ， 在 不 同 服务 器 上 使 用 多 线程 疏 虫 提升 效率 ， 仍 然 存 在 两 个 问题 : 
(1) 服务 器 之 间 没 有 通信 ， 每 个 服务 器 的 待 疏 网 页 还 是 需要 手动 分 配 。 
(2) 存储 数据 还 是 在 各 个 服务 器 上 ， 并 没有 集中 存储 到 茶 一 个 服务 器 或 数据 库 中 。 


本 章 介绍 的 分 布 式 爬 求 能 够 很 好 地 解决 这 个 问题 。 通 过 使 用 分 布 式 疏 幢 ， 一 方面 能 极 大 地 提高 朴 忠 的 效率 ; 另 一 方面 ， 不 同 服务 器 之 间 的 统一 管理 能 够 实现 从 不 同 服务 器 爬虫 的 队列 管理 到 数据 存储 的 
优化 。 


13.1 安装 Redis 


Redis 是 一 个 基于 内 存 的 Key-Value 数 据 库 ， 支 持 的 数据 类 型 有 string、lists、sets、zsets。 这 些 数 据 类 型 都 支持 push/pop、add/remove 以 及 取 交 集 、 并 集 、 差 集 等 操作 ， 对 这 些 操 作 都 是 原子 性 的 。 
因此 ， 使 用 Redis 可 以 很 轻松 地 实现 高 并 发 的 数据 访问 。 


在 分 布 式 中 ，Redis 的 队列 性 特别 好 用 ， 被 用 来 作为 分 布 式 的 基石 。 我 们 即将 实践 的 内 容 是 在 多 台 机 器 上 安装 Redis， 然 后 让 一 台 作 为 服务 器 ， 其 他 机 器 开启 客户 端 共 享 队列 。 


首先 ， 需 要 在 Windows 上 安装 Redis， 安 装 过 程 并 复杂 ， 操 作 步 又 如 下 : 


进入 Redis for Windows 下 载 页 面 ( '/ git M Tec] |] ) 下 载 最 新 版 Redis， 记 住 是 ZIP 文 件 ， 如 图 13-1 所 示 。 


3.2.100 
ea enricogior released this on 1 Jul 2016 - 1208 commits to 3 


This is the first release of Redis on Windows 3.2. 


This release is | 3.2. s some Windows specific fixes. It has passec 


standard tests but it hasn't been tested in a production environment. 


Therefore, before considering using this release in production, make sure to test it thoroughly in your 


own test environment. 


otes for details. 


Downloads 
T Redis-x64-3.2.100.msi 
[9 Redis-x64-3.2.100.zip 


= 


i] Source code (2 p) 


— 


Source code 


图 13-1 下 载 最 新 版 Redis 


将 ZIP 文 件 解压 并 放 在 某 文 件 夹 中 ， 如 Di:Ntedis。 然 后 打开 cmd， 把 目录 指向 解压 的 Redis 目 录 。 输 入 tedis-setvet tedis.windows.conf， 出 现 如 图 13-2 所 示 的 效果 表示 启动 成 功 了 。 
E» 管理 员 : C:\Windows\system: 
D:*rediz»redis-zeruer redis.windows.conf 


Redis 3.60.5603 (HAHAHHAHAHA) 64 bit 
Running in standalone mode 


Fort: 6379 
PID: 7924 


http:^/^/redis.io 


[79241 18 Jun 19:86:51.818 H Server started, Redis version 3.060.503 

[79241 18 Jun 19:06:51.820 * DB loaded from disk: 8.818 seconds 

[7924] 18 Jun 19:06:51.820 * The server is now ready to accept connections on po 
rt 65377 


图 13-2 ”Redis 启 动 成 功 


将 Redis 以 Windows Service 的 方式 启动 。 虽 然 上 一 个 步骤 启动 了 Redis, 但 是 只 要 关闭 cmd 窗 口 ，Redis 就 会 消失 。 所 以 要 把 Redis 设 置 成 Windows 下 的 服务 。 关 闭 刚刚 的 cmd 窗 口 ， 再 打开 一 个 新 的 


cmd 窗 口 ， 进 入 Redis 目 录 ， 输 入 redis-server--service-install redis.windows-service.conf--loglevel vetbose， 如 图 13-3 所 示 。 


EN 管理 员 : C:\Windows\system32\cmd.exe j 


r icrosoft Windows LARA 6.1.7688] 
HRI BI. cc) 2669 Microsoft Corporation, 


(: Wsers*Administrator>d: 
Dw ?ed redis 


D:*redis»redis-seruer ——seruice-install redis.windows-service.conf —-loglevel ve 
rbose 


D:redis >m 


图 13-3 Windows Service] Zr A Æ Sj Redis 


输入 命令 之 后 没有 报错 ， 表 示 成 功 安装 。 打 开 Windows 中 的 “服务 ”窗口 ， 可 以 看 到 Redis 服 务 ， 如 图 13-4 所 示 。 
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图 13-4 “服务 ”窗口 


启动 Redis 服 务 。 在 刚刚 的 cmd 窗 口中 键入 redis-server--service-start， 表 示 启 动 服务 。 如 果 出 现 Redis service successfully started 的 提示 ， 就 表示 服务 成 功 启 动 ， 如 图 13-5 所 示 。 


Ge ERA: C:\Windows\system32\cmd.exe 


Microsoft Windows Chip as 6.1.7600 ] oe etre 
hRTV BILE ce) 2889 Microsoft Corporation. 保留 所 有 权利 。 


C: Mizersfdministrator?d: 
D:*5»cd redis 


D: \redis>redis-server ——seruice-install redis.windows-service.conf —-loglevel ve 


rÉbose 


D:*redis»redis-seruver ——service-start 
[58841] 18 Jun 19:13:17.613 # Redis service successfully started. 


D:*redis»? 


图 13-5 ”启动 Redis 服 务 


我 们 还 可 以 使 用 命令 redis-server--service-stop 停 止 服务 。 如 果 想 逢 载 Redis 服 务 ， 可 以 输入 命令 redis-server--service-uninstall。 


在 默认 情况 下 ,访问 Redis 服 务 器 是 不 需要 密码 的 ， 为 了 增加 安全 性 ,我 们 需要 设置 Redis 服 务 器 的 访问 密码 。 这 里 设置 访问 密码 为 redisredis。 


可 以 直接 打开 Redis 文 件 夹 中 的 redis.windows-service.conf， 在 其 中 取消 注释 requirepass， 将 该 变量 的 值 设置 为 redisredis， 如 图 13-6 所 示 。 


f Warning: since Redis 
# 150k passwords per 


# use a very strong passw 
Ë 
requirepass redisredis 


图 13-6 ”设置 变量 的 值 


在 默认 情况 下 ， 访 问 Redis 服 务 器 是 不 需要 密码 的 ， 为 了 增加 安全 性 ， 我 们 需要 设置 Redis 服 务 器 的 访问 密码 。 这 里 设置 访问 密码 为 redisredis。 


可 以 直接 打开 Redis 文 件 夹 中 的 redis.windows-service.conf， 在 其 中 取消 注释 requirepass， 将 该 变量 的 值 设 置 为 redisredis， 如 图 13-6 所 示 。 


f Warning: 


since Redis is pretty fast an 


outside user can try up to 


# 150k passwords per second against a good box. This means that you should 


# use a very strong password otherwise it will be very easy to break. 


X 
requirepass redisredis 


13.2.2 ”让 Redis 服 务 器 被 远程 访问 


在 默认 情况 下 ，Redis 服 务 器 不 允许 远程 访问 ， 只 人 允许 本 机 访问 ， 所 以 需要 设置 打开 远程 访问 的 功能 ， 


interfaces using the 


more IP addresses. 


Examples: 


bind 192.168.1.100 10.0.0.1 


bind 127.0.0.1 


"bind" 


图 13-6 ”设置 变量 的 值 


如 图 13-7 所 示 。 仍 然 是 在 Redis 文 件 夹 的 redis.windows-service.conf 中 注释 bind 变 量 。 


configuration directive, followed by one or 


图 13-7 i&ffbindZ È 


修改 完成 后 ， 可 以 尝试 使 用 本 机 的 IP 地 址 加 上 密码 访问 Redis 服 务 器 。 本 机 IP 地 址 可 以 通过 cmd 中 的 ipconfig 命 令 获取 。 在 cmd 中 键入 : redis-cli-a redisredis-h 你 的 ip 地 址 -p 6379。 如 果 能 够 正常 访问 


Redis 服 务 器 ， 就 代表 Redis 远 程 访问 成 功 ， 如 图 13-8 所 示 。 


D:'redis»redis-cli -a redisredis 
137.189 .204.65:6379> get * 
Cnil» 


13'7.189?.204.65:6379» get keyi 


"lala" 


137.189 .264.65:63'79 > 


除了 本 机 之 外 ， 还 需要 在 其 他 服务 器 上 安装 配置 好 Redis。 


13.2.3 ”使 用 Redis Desktop Manager 管 理 


-=h 137.189 .264.65 -p 6379 


图 13-8 ”远程 访问 成 功 


类 似 于 MongoDB 的 Robomongo， 如 果 想 可 视 化 地 管理 Redis 数 据 库 ， 可 以 进入 网 站 https://redisdesktop.com/download 下 载 Redis Desktop Manager。 安 装 和 配置 过 程 非常 简单 ， 直 接 下 载 exe 程 


序 ， 可 以 像 普通 软件 一 样 安装 ， 这 里 就 不 再 详细 描述 ， 界 面 如 图 13-9 所 示 。 
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Cross- platform GUI application for managing Redis. 


Many thanks to Our amazing contributors end commu nity 
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图 13-9 Redis Desktop Manager j- t 


13.3 Redis SANER 
一 般 而 言 ， 分 布 式 胞 中 可 以 简单 分 成 两 种 类 型 的 任务 : STEMS, HEMANI; SAER, TERTE, EREE HEA QueueilThreadi REN, 
我 们 通过 获取 代码 队列 ， 并 加 入 Queue 队 列 中 ， 然 后 使 用 多 线程 从 队列 中 读 取 UR 地址， 进行 多 线程 人 中 。 


因此 ， 本 节 的 实践 环节 和 第 8 章 有 些 类 似 ， 目 的 是 获取 访问 量 最 大 的 100 个 中 文 网 站 中 的 所 有 图 片 。 


13.3.1 ”安装 Redis 库 


首先 需要 使 用 pip 安 装 Redis 库 。 在 cmd 中 键入 pip install redis 后 按 回 车 键 ， 即 可 成 功 安装 Redis， 如 图 13-10 所 示 。 


gi 管理 员 : C:\Windows\system32\cmd.exe |< | © {Ze 


icrosoft Windows I Hh as b.1./76HH) MN 
REL 所有 £c» 200? Microsoft Corporation. TR EB AAR FY Fl o 


,. Wsers WHdministrator»pip install redis 


Requirement already satisfied: redis in c: 'programdata'anaconda3'Xlib*site-packag 


2. Wsers \Administrator ? 


图 13-10 — X Redis # 


13.3.2 ”加 入 任务 队列 


首先 要 创建 一 个 函数 ， 用 于 获取 这 100 个 中 文 网 站 中 所 有 图 片 的 链接 地 址 ， 并 且 加 入 Redis 数 据 库 的 队列 中 。 


def push redis list(): 
r = Redis (host-'137.189.204.65', port=6379 ,password='redisredis') 
print (r.keys('*')) 


link list = [] 

with open('alexa.txt', 'r') as file: 

file list = file.readlines () 

for eachone in file list: 
link = eachone.split('\t") [1] 

link = link.replace('\n','') 

link list.append (link) 

if len(link list) == 100: 

break 


for url in link list: 


response = requests.get (url, headers-headers, timeout=20) 
soup = BeautifulSoup(response.text, 'lxml') 
img list = soup.find all('img') 
for img in img list: 
img url = img['src'] 


if img url != '': 
print ("加 入 的 图 片 url: ", img url) 

r.lpush('img url',img url) 

print (' 现 在 图 片 链接 的 个 数 为 '，r.llen('img url')) 


return 


在 上 述 代 码 中 ， 首 先 创建 r=Redis(host='LOCAL HOST',port=6379,password='redisredis') 并 连接 到 Redis 服 务 器 ， 然 后 使 用 r.keys(*') 将 Redis 服 务 器 中 所 有 的 keys 都 打印 出 来 。 


接着 读 取 流量 最 大 的 100 个 网 站 地 址 。 对 于 link_list 的 每 一 个 链接 ， 通 过 Requests 和 BeautifulSoup 获 取 其 中 图 片 的 链接 ， 然 后 使 用 r.lpush(img_url',img_url) 将 链接 注入 Redis 数 据 库 中 ， 最 后 
r.llen(img_url) 输 出 当前 图 片 URL 的 数量 。 


13.3.3 ” 读 取 任 务 队列 并 下 载 图 片 


接 下 来 需要 从 Redis 服 务 器 中 读 取 队 列 中 的 图 片 链接 ， 将 图 片 下 载 下 来 并 保存 人 在 硬盘 中 。 


def get img(): 
r = Redis(host-'YOUR HOST', port=6379 ,password-'redisredis') 
while True: 


try: 
url = r.lpop('img url') 
url = url.decode('ascii') 
if url[:2] == '//': 


url = 'httpz' + url 
print (url) 
Cry: 
response = requests.get (url, headers=headers, timeout = 20) 
name = int (time.time() ) 
f = open(str(name)+ url[-4:], 'wb') 
f.write (response.content) 
f.close() 
print (' 已 经 获取 图 片 '，url) 
except Exception as e: 
print (JERKA IEE, e) 
time.sleep (3) 
except Exception as e: 
print (e) 
time.sleep (10) 
break 


return 


在 上 述 代码 中 ， 首 先 连 接 Redis 服 务 器 ， 然 后 使 用 url=rIpop(img_url) 获 取 队 列 中 的 图 片 链接 ， 接 着 使 用 while 循 环 对 每 一 张 图 片 链 接 使 用 requests 获 取 图 片 并 保存 下 来 。 


13.3.4 25 9x E Rh 


下 面 是 此 次 分 布 式 公 虫 的 代码 。 对 于 不 同 的 服务 器 ， 此 项 任务 分 成 两 类 : 一 类 是 客户 端 ， 这 里 称 之 为 master 主 人 ， 运 行 push_redis list 函 数 ， 另 一 类 称 之 为 slave 奴 隶 ， 可 以 开启 任意 多 个 服务 器 ， 运 行 
get_img 函 数 。 这 样 ， 简 单 的 分 布 式 就 构建 完成 了 。 


首先 介绍 master 的 代码 ， 将 其 保存 为 master.py: 


import requests 

from bs4 import BeautifulSoup 
import re 
import time 
from redis import Redis 

headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36' } 


def push redis list(): 
# 与 上 面 此 函数 相同 


def get img(): 
# 与 下 面 此 函数 相同 


if name = ' main ': 
this machine = 'master' 
print ("HIRTA NJEE ') 
if this machine == 'master': 
push redis list() 
else: B 
get img() 


接着 介绍 slave 的 代码 ， 将 其 保存 为 slave.py: 


import requests 

from bs4 import BeautifulSoup 
import re 
import time 
from redis import Redis 

headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36' } 


def push redis list() 


# 与 上 面 此 函数 相同 


def get img(): 
# 与 下面 此 函数 相同 


if name == ' main ': 
this machine = 'slave' 
print ('Freaa 7 AU ') 
if this machine == “master’s 
push redis list() 
else: 
get img() 


上 述 master.py 和 slave.py 的 唯一 不 同 之 处 在 于 ， 对 于 不 同 的 服务 器 ， 变 量 this machine 有 所 不 同 ， 也 就 决定 了 各 自 功 能 的 不 同 。 首 先 运 行 master.py， 然 后 运行 slave.py。 
在 master.py 得 到 的 结果 是 : 

JPG fox uem 

[b'img url';b'key1';b'foo'] 

加 入 的 图 片 url: //www.baidu.com/img/bd logo1.png 

加 入 的 图 片 url: //www.baidu.com/img/baidu jgylogo3.gif 

现在 图 片 链接 的 个 数 为 629 

加 入 的 图 片 url: //mat1.gtimg.com/www/images/qq2012/sogouSearchLogo20140629.png 
加 入 的 图 片 url: http://mat1.gtimg.com/www/images/qq201 2/guanjia2.png 

加 入 的 图 片 url: http://img1.gtimg.com/ninja/2/2017/06/ninja149709145815497.jpg 
加 入 的 图 片 url: http://img1.gtimg.com/ninja/2/2017/06/ninja14970951 7833491 jpg 
加 入 的 图 片 url: http://img1.gtimg.com/ninja/2/2017/06/ninja149708118462544.jpg 
加 入 的 图 片 url: http://img1.gtimg.com/ninja/2/2017/06/ninja149708117122501 jpg 
在 slave.py 得 到 的 结果 是 : 

JPG fox uem 

http://p.ssl.qhimg.com/t01929ae441cf8c880a.jpg 

已 经 获取 图 片 http://p.ssl.qhimg.com/t01929ae441cf8c880a.jpg 
https://p2.ssl.qhimg.com/t014c97aff16988ff6b.jpg 

已 经 获取 图 片 https://p2.ssl.qhimg.com/t014c97aff16988ff6b.jpg 
http://p.ssl.qhimg.com/t016ed08e5f5e51ced7.jpg 

已 经 获取 图 片 http://p.ssl.qhimg.com/t016ed08e5f5e51ced7.jpg 
http://p.ssl.qhimg.com/t0163f563c2168e0cb4.jpg 

已 经 获取 图 片 http://p.ssl.qhimg.com/t0163f563c2168e0cb4.jpg 
http://p.ssl.qhimg.com/t01def59e5c65c936be.jpg 

已 经 获取 图 片 http://p.ssl.qhimg.com/t01def59e5c65c936be.jpg 


打开 该 文件 夹 ， 我 们 获取 的 图 片 如 图 13-11 所 示 。 
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13.4 


在 上 述 实例 中 ， 我 们 通过 Redis 实 现 了 一 个 分 布 式 公 虫 ， 让 其 可 以 在 不 同 服务 器 之 间 通 信 。 其 实 ， 还 可 以 在 分 布 式 胞 虫 的 各 个 服务 器 中 使 用 多 线程 或 多 进程 代 虫 ， 这 样 整个 他 虫 的 抓 取 速 度 和 效率 将 会 有 
更 大 的 增长 。 


除 此 之 外 ， 分 布 式 他 虫 还 有 一 个 好 处 就 是 ， 队 列 的 分 配 是 依靠 master 的 。 当 你 获取 数据 的 某 一 台 slave 奴 隶 服 务 器 因为 各 种 原因 停止 候 虫 了 ， 也 不 会 让 整个 他 虫 程序 停 下 来 。 这 样 ， 分 布 式 息 虫 不 仅 可 以 
在 爬虫 效率 上 有 成 倍 的 提升 ， 还 可 以 保证 爬虫 程序 的 稳定 性 。 


第 14 章 ”爬虫 实践 一 : 维基 百科 


“是 骤 子 是 马 ， 拉 出 来 多 多 ”。 我 们 已 经 将 Python 网 络 爬 虫 的 技术 系统 地 学 习 完 了 ， 后 面 几 个 章节 开始 进入 实践 环节 。 每 一 章 都 会 使 用 之 前 学 习 的 技术 ， 通 过 实践 提升 疏 虫 的 技术 水 平 。 只 有 通过 实 
践 ， 才 能 真正 地 积累 知识 ， 掌 握 网 络 爬 虫 的 点 石 成 金 之 本 。 


维基 百科 是 一 个 网 络 百科 全 书 ， 在 一 般 情 况 下 允许 用 户 编辑 任何 条 目 。 当 前 维基 百科 由 非 营利 组 织 维基 媒体 基金 会 负责 营运 。 维 基 百 科 一 词 是 由 网 站 核心 技术 Wiki 和 具有 百科 全 书 之 意 的 encyclopedia 共 
同 创造 出 来 的 新 混合 词 Wikipedia。 


本 章 将 给 出 一 个 疏 取 维基 百科 的 实践 项 目 ， 所 采用 的 疏 忠 技术 包括 以 下 4 种 。 
JORMA: HARA ex 

* 解析 网 页 : 正则 表达 式 

“ 存储 数据 : 存储 至 txt 


| 进 阶 新 技术 : RRA BIRR, TEREM S RARER 


14.1. MEHRA 


14.1.1 项 目 目 标 


本 项 目的 目标 是 他 取 维基 百科 上 的 词 条 链接 。 维 基 百 科 上 的 英文 词 条 文章 数 约 有 537 万 ， 所 有 语言 的 词 条 文章 数 超过 了 4100 万 ， 数 量 十 分 庞大 。 作 为 网 络 季 虫 练 手 的 项 目 ， 并 不 需要 把 维基 百科 上 所 有 
的 词 条 链接 候 下 来 ， 本 次 的 他 虫 深度 设置 为 两 层 。 如 果 大 家 想 胞 更 多 的 链接 ， 可 以 自行 调整 他 虫 深度 。 


由 于 维基 百科 为 非 赢利 的 机 构 ， 其 运营 完全 靠 公众 的 捐助 。 因 此 ， 在 运行 他 虫 的 时 候 ， 注 意 不 要 过 快 、 过 频密 地 有 息 取 维基 百科 网 页 ， 以 免 对 服务 器 产生 大 量 负 荷 。 另 外 ， 如 果 可 以 ， 单 击 维基 百 科 的 
Donate to Wikipedia， 捐 助 一 些 资金 给 维基 百科 ， 让 它 可 以 持续 、 免 费 地 提供 知识 给 人 们 。 


14.1 MEHRA 


14.1.1 ”项目 目标 


本 项 目的 目标 是 爬 取 维基 百科 上 的 词 条 链接 。 维 基 百 科 上 的 英文 词 条 文章 数 约 有 537 万 ， 所 有 语言 的 词 条 文章 数 超过 了 4100 万 ， 数 量 十 分 庞大 。 作 为 网 络 聆 虫 练 手 的 项 目 ， 并 不 需要 把 维基 百科 上 所 有 
的 词 条 链接 候 下 来 ， 本 次 的 他 虫 深度 设置 为 两 层 。 如 果 大 家 想 息 更 多 的 链接 ， 可 以 自行 调整 他 虫 深度 。 


由 于 维基 百科 为 非 赢利 的 机 构 ， 其 运营 完全 靠 公众 的 捐助 。 因 此 ， 在 运行 他 虫 的 时 候 ， 注 意 不 要 过 快 、 过 频密 地 有 息 取 维基 百科 网 页 ， 以 免 对 服务 器 产生 大 量 负 荷 。 另 外 ， 如 果 可 以 ， 单 击 维基 百 科 的 
Donate to Wikipedia， 捐 助 一 些 资金 给 维基 百科 ， 让 它 可 以 持续 、 免 费 地 提供 知识 给 人 们 。 


14.1.2 项目 描述 


如 果 需 要 怜 取 一 个 网 站 上 的 所 有 链接 ， 采 取 什 么 方法 比较 好 呢 ? 可 以 找到 该 网 站 上 的 一 个 网 页 ， 如 主页 ， 获 取 主 页 的 内 容 ， 分 析 网 页 内 容 并 找到 主页 上 所 有 的 本 站 链接 ， 然 后 聆 取 刚刚 获得 的 链接 ， 再 
分 析 这 些 链接 上 的 网 页 内 容 ， 找 到 上 面 所 有 的 本 站 链接 ， 并 不 断 重 复 ， 直 到 没有 新 的 链接 为 止 ， 如 图 14-1 所 示 。 
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图 14-1 网 站 链接 


以 维基 百科 为 例 ， 我 们 可 以 先 肛 取 词 条 为 Wikipedia 的 网 页 ， 获 取 该 网 页 的 所 有 词 条 链接 ， 如 Wikipedia 中 的 online encyclopedia， 此 时 有 拒 虫 深度 为 1。 接 下 来 ， 可 以 肛 取 新 获取 的 词 条 链接 的 网 页 ， 获 
取 其 中 的 所 有 词 条 链接 ， 如 online encyclopedia 中 的 encyclopedia， 此 时 拒 虫 深度 为 2。 之 后 ， 再 次 有 息 取 最 新 获取 的 词 条 链接 的 网 页 ， 获 取 其 中 的 所 有 词 条 链接 ， 如 获取 encyclopedia 中 的 dictionaries,， 
此 时 拒 虫 深度 为 3。 由 于 有 息 虫 深度 为 3 的 时 候 肛 取 的 词 条 数目 已 经 在 300 万 以 上 ， 因 此 本 次 胞 虫 仅 设置 深度 为 2。 


图 14-1 使 用 了 树 状 图 来 表述 胞 取 链 接 的 情况 ， 我 们 可 以 明显 地 看 到 一 条 一 条 的 息 虫 路 径 。 如 果 把 每 一 层 的 首尾 相连 ， 用 网 状 图 来 表示 结构 ， 就 可 以 画 出 如 图 14-2 所 示 的 “蜘蛛 网 图 ”。 


Larry Sanger 


Reference 
work 
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Wikimedia 


Foundation 


图 14-2 ”网 状 图 结构 


想必 看 到 图 14-2， 大 家 很 容易 就 能 明白 为 什么 爬 取 网 络 上 的 信息 叫做 网 络 爬 虫 (Web Crawler) 或 网 络 蜘蛛 (Web Spider) 了 。 如 果 我 们 把 整个 互联 网 比喻 成 一 个 蜘蛛 网 ， 那 么 网 络 季 虫 就 是 在 网 上 
胞 来 肛 去 的 蜂 蛛 。 网 络 蜘蛛 是 通过 网 页 的 链接 地 址 寻找 网 页 的 ， 从 网 站 某 一 个 页 面 (通常 是 首页 ) 开始 读 取 网 页 的 内 容 ， 找 到 在 网 页 中 的 其 他 链接 地 址 ， 然 后 通过 这 些 链 接地 址 寻找 下 一 个 网 页 ， 这 样 一 直 
循环 下 去 ， 直 到 把 这 个 网 站 所 有 的 网 页 都 抓 取 完 为 止 。 如 果 把 整个 互联 网 当成 一 个 网 站 ， 那 么 网 络 蜂 蛛 就 可 以 用 这 个 原理 把 互联 网 上 所 有 的 网 页 都 抓 取 下 来 。 


14.1.3 ”深度 优先 和 广度 优先 


如 何 把 整个 网 站 的 所 有 网 页 都 聆 取 一 遍 呢 y 这 里 要 说 到 两 个 算法 : 基于 深度 优先 的 遍历 和 基于 广度 优先 的 遍历 。 
这 两 个 算法 都 非常 容易 理解 。 


深度 优先 的 遍历 可 以 描述 为 “不 撞 南 墙 不 回头 ”， 具 体 一 点 就 是 首先 访问 第 一 个 邻接 节点 ， 然 后 以 这 个 被 访问 的 邻接 节点 作为 初始 节点 ， 访 问 它 的 第 一 个 邻接 节点 。 访 问 策略 是 优先 往 纵向 挖掘 深入 ， 
直到 到 达 指定 的 深度 或 该 节点 不 存在 邻接 节点 ， 才 会 掉头 访问 第 二 条 路 。 


在 14.1.2 小 节 的 维基 百科 例子 中 ， 假 设 深度 为 3， 深 度 优先 算法 会 先 肛 取 Wikipedia 词 条 的 所 有 词 条 链接 ; 假设 在 Wikipedia 页 面 的 第 一 个 词 条 链接 是 Online encyclopedia, 3B 8832: zB Online 
encyclopedia 的 所 有 词 条 链接 ; 假设 在 Online encyclopedia 页 面 的 第 一 个 词 条 链接 是 encyclopedia， 那 么 怜 虫 接 着 会 聆 取 encyclopedia 的 所 有 词 条 链接 ， 接 着 爬 取 internet 的 所 有 词 条 链接 。 


维基 百科 的 树 状 图 编号 如 图 14-3 所 示 。 


* Wikipedia 
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editions Wikimedia moveme Randolph School 


Project Gutenberg 


internet . 
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深度 :3 


= 


H143 ” 树 状 图 编号 


基于 深度 优先 的 疏 虫 路 径 是 : 1390273697738 33 3455, 


广度 优先 的 遍历 可 以 描述 为 “一 层 一 层 地 剥 开 我 的 心 。。 具 体 一 点 就 是 从 某 个 顶点 出 发 ， 首 先 访 问 这 个 顶点 ， 然 后 找 出 这 个 节点 的 所 有 未 被 访问 的 邻接 节点 ， 访 问 完 后 再 访问 这 些 节点 中 第 一 个 邻接 节 
点 的 所 有 节点 ， 重 复 此 方法 ， 直 到 所 有 节点 都 被 访问 完 为 止 。 访 问 策略 采用 先 访问 完 一 个 深度 的 所 有 节点 ， 表 访问 更 深 一 层 的 所 有 节点 ， 并 采用 FIFO (先进 先 出 ) 的 策略 。 


在 维基 百科 例子 中 ， 假 设 深度 为 3， 广 度 优先 算法 会 先 季 取 Wikipedia 词 条 的 所 有 词 条 链接 ， 然 后 肛 取 Wikipedia 词 条 的 所 有 词 条 链接 的 页 面 ， 获 取 各 个 页 面 的 所 有 链接 ， 也 就 是 把 深度 为 2 的 所 有 网 页 有 息 
完 后 ， 再 爬 取 最 新 获取 的 词 条 链接 的 网 页 ， 也 就 是 聆 取 所 有 深度 为 3 的 网 页 。 


利用 上 面 的 树 状 图 的 编号 ， 基 于 广度 优先 的 拒 虫 路 径 是 : 1 22 了 3 4 2526-2728, 


14.2 ”网 站 分 析 


这 次 维基 百科 爬虫 的 首页 是 https://en.wikipedia.org/wiki/Wikipedia， 也 就 是 Wikipedia 词 条 的 页 面 ， 如 图 14-4 所 示 。 
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图 14-4 ”Wikipedia 词 条 的 页 面 


首先 ， 可 以 用 Chrome 浏 览 器 的 检查 (审查 元 素 ) 功能 分 析 词 条 链接 的 特点 ， 如 图 14-5 所 示 。 


a href-"/wiki/Online encyclopedia" title-"Online encyclopedia" »online encyclopedia: /a 
that aims to allow anyone to edit articles." 


><sup i cite ref-6" class="reference">..</ sup 
" Wikipedia is the largest and most popular general " 
a href-"/wiki/Reference work" title-"Reference work" »reference work-/a 


图 14-5 “分析 词 条 链接 的 特点 


我 们 可 以 写 一 段 简单 的 代码 取出 本 页 面 的 所 有 链接 ， 帮 助 分 析 真 正 词 条 链接 的 特点 ， 代 码 如 下 : 


#! /usr/bin/python 
# coding: UTF-8 


import requests 
from bs4 import BeautifulSoup 


headers = ('User-Agent' : 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'} 
r= requests.get ("https://en.wikipedia.org/wiki/Wikipedia", headers- headers) 

html = r.text 
bsObj = BeautifulSoup (html) 


for link in bsObj. findAl11 ("a"): 
i 'href' in link.attrs: 
print (link.attrs['href']) 


得 到 的 结果 是 该 页 面 的 所 有 链接 : 

/wiki/Wikipedia:Protection policy£semi 

#mw-head 

#p-search 

/wiki/Main_Page 

/wiki/Wikipedia:About 

/wiki/Wikipedia (disambiguation) 

/wiki/File:Wikipedia-logo-v2.svg 

/wiki/File:Wikipedia_wordmark.svg 

可 以 看 到 ， 提 取 的 URL 有 一 些 是 重复 的 ， 还 有 一 些 URL 是 我 们 不 需要 的 ， 比 如 侧 边栏 、 页 丑 、 页 脚 、 文 章 引 用 的 链接 等 。 
过 分 析 ， 可 以 发 现 所 有 词 条 的 链接 有 两 个 特点 : 
(1) URL 链 接 是 以 /wiki 开头 的 相对 路 径 。 

(2) URL 链 接 不 包括 冒号 、#、=、<、>。 


我 们 可 以 直接 用 正则 表达 式 从 网 页 HTML 代 码 中 提取 需要 的 词 条 链接 ， 正 则 表达 式 为 <a href="/wiki/([ 人 ^:#=<>]*?)".*?</a>。 


14.3 ”项 目 实施 : 深度 优先 的 递归 把 虫 


首先 ， 使 用 深度 优先 的 代 虫 获取 所 有 的 词 条 链接 ， 谍 虫 深度 为 2， 代 码 如 下 : 


#!/usr/bin/python 
# coding: utf-8 


import 
import re 
import 

exist url = [] £A CJE HIPH Ta 


g writecount - 0 


def scrappy(url, depth = 1): 

global g writecount 

try: 
headers = ('User-Agent' : 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'} 
url = "https://en.wikipedia.org/wiki/" + url 
r = requests.get(url, headers- headers) 
html = r.text 

except Exception as e: 
print ('Failed downloading and saving', url) 
print (e) 
exist url.append (url) 
return None 


exist url. append (url) 

link list = re.findall('«a href="/wiki/ ([*:#=<>]*?)".*2</a>',html) 
# AROERI ER 

unique list = list(set(link list) - set(exist url)) 


# 把 所 有 链接 写 出 到 txt 文 件 
for eachone in unique - list: 
g writecount += 
output = "No." J str (gi writecount) + "Nt Depth:" + str(depth) + "\t"+ url + ' -> ' + eachone + '\n' 
print (output) 
with open('link 12-3.txt', "a+") as f: 
f.write (output) 


只 获取 两 层 ，"Wikipedia" 算 第 一 层 


f depth < 2: 
FEAM 自己 来 访问 下 一 层 


3: 


"^ 


scrappy (eachone, depth+1) 


scrappy ("Wikipedia") 


在 上 述 代 码 中 ，exist_url 是 一 个 列表 ， 用 于 存放 已 经 肛 取 的 网 页 。scrappy(url,depth=1) 为 他 虫 的 阔 数 ， 在 获取 页 面 的 htmi 源 代码 后 ， 可 以 使 用 正则 表达 式 提 取 所 有 的 词 条 链接 (Blink list) , 
list(set(link_list)-set(exist_url)) 去 掉 那 些 已 经 乳 取 的 链接 和 重复 的 链接 ， 得 到 unique list, 


每 一 个 新 获取 的 链接 都 有 要 先 保存 到 TXT 文件 中 ， 再 使 用 递归 函数 调用 。 也 就 是 说 ， 在 scrappy 函 数 中 调用 递归 scrappy 访 问 一 条 没有 访问 过 的 词 条 链接 ， 直 到 深度 大 于 或 等 于 2 为 止 。 


我 们 可 以 在 title.txt 中 查看 顺利 获取 的 数据 ， 如 图 14-6 所 示 。 


最 终 获 取 的 URL 数 量 为 172864 个 ， 


14.4 项 目 


从 基于 深度 优先 的 递归 拒 虫 可 以 了 解 深度 优先 算法 的 特点 。 但 是 由 于 其 还 是 串 行 的 他 虫 ， 速 度 难免 比较 慢 。 


进 阶 : 


查看 (V) 帮助 (H) 
Wikipedia -> Classical Chinese Wikipedia 


DNRMC RARE, White RIENE, 


多 线程 聆 虫 用 深度 优先 算法 不 太 方 便 ， 因 为 深度 优先 算法 的 链接 是 一 个 一 个 获取 的 ， 在 获取 之 前 并 不 知道 下 一 个 


Classical Chinese Wikipedia 
Classical Chinese Wikipedia 
Classical Chinese Wikipedia 
Classical Chinese Wikipedia 
Classical Chinese Wikipedia 
Classical Chinese Wikipedia 
Classical Chinese Wikipedia 
Classical Chinese Wikipedia 
Classical Chinese Wikipedia 
Classical Chinese Wikipedia 


Classical Chinese Wikipedia 


Classical. Chinese Wikipedia 
Classical Chinese Wikipedia 


Classical Chinese Wikipedia 


Classical Chinese Wikipedia 
Classical Chinese Wikipedia 
Classical Chinese "ikipedia 
Classical. Chinese Wikipedia 
Classical Chinese Wikipedia 
Classical Chinese Wikipedia 
Classical Chinese Wikipedia 
Classical Chinese Wikipedia 
Classical Chinese Wikipedia 
Classical Chinese Wikipedia 
Classical Chinese Wikipedia 


EJ14-6 ”查看 获取 的 数据 


花费 的 时 间 为 1957.4 秒 。 


广度 优先 的 多 续 程 聆 虫 


当 把 深度 加 到 3 时 ， 笔 者 试 过 念 了 10 个 小 时 左右 才 有 息 取 了 170 万 个 


+» Haitian Creole Wikipedia 


Sundanese Wikipedia 
Samogitian Wikipedia 
Catalan Wikipedia 
Tally stick 
Áragonese Wikipedia 
Jamaican Patois Wikipedia 
Calendar 

Cantonese Wikipedia 
Cebuano_Wikipedia 
Assamese_Wikipedia 
Persian Wikipedia 
Chechen Wikipedia 
Standard Chinese 
List of Wikipedlas 
Bulgarian Wikipedia 
Erya 

Min Nan Wikipedia 
Northern Sami Wikipedia 
Arabic Wikipedia 
Ukrainian Wikipedia 
Xhosa Wikipedia 
Malayalam Wikipedia 
Sicilian Wikipedia 


D Serbo-Croatian Wikipedia 


页 面 有 多 少 链接 ， 调 用 多 线程 的 队列 并 不 能 带 来 太 多 的 好 处 。 


多 线程 肛 虫 配合 广度 优先 算法 正好 。 广 度 优先 的 遍历 算法 以 层 为 顺序 ， 将 某 一 层 上 的 所 有 节点 都 搜索 到 了 之 后 才 向 下 一 层 搜索 ， 可 以 有 大 量词 条 链接 放 入 多 线程 息 虫 的 队列 中 。 


以 下 是 广度 优先 的 多 线程 好 虫 的 代码 ， 此 处 代码 很 长 ， 请 耐心 阅读 体会 。 


#!/usr/bin/env python 
#coding=utf 8 


import thr 


eading 


import requests 


g mutex = wo o Condition ( 


ia 度 fe dedo tnd RB 之 后 解析 所 有 url 链 接 


等 待 仆 取 的 url 链 接 列表 


class Crawl 
def 


def cr 


nt = 0 


init 
lf.urL 


g 
id 已 经 息 取 过 的 ur1 链 接 列表 
# 找 到 的 链接 数 


(self,url,threadnum): 
—url 


F.thr 
lf.thr 


aw (self 


eadnum=threadnum 
eadpool=[] 


global g queueURL 


g queueURL. append (url) 


depth-1 


while (depth < 3): 


prin 


self. 


t ('Searching depth 
downloadAll() 


sel 


f.updateQueueURL () 


i HERKEN, GRIERA K, 


', depth, 'http://www.hzcourse.com/resource/read] 


更 新 队列 


Book?path-/openresources/teach ebook/uncompressed/18359/0EBPS/Text/...\n') 


并 且 用 


词 条 链接 。 因 此 ， 如 果 需 要 


g pages - [] 
depth += 1 


def downloadAll(self): 4HHIZZXFEUK m, FE) TARR AAAI TEA ZA, HARE 
global g queueURL 
i-0 
while i«len(g queueURL): 
j=0 
while j«self.threadnum and i+j < len(g queueURL): 
threadresult = self.download(g queueURL[i-tj],j) 
j+=1 
i += j 
for thread in self.threadpool: 
thread.join (30) 
threadpool-[] 
g queueURI-[] 


— 


def download(self,url,tid): PWH ZZ FUR 
crawthread-CrawlerThr ad tur] ,tid) 
self.threadpool.append (crawthread) 
crawthread. start () 


yo 
bii 


def updateQueueURL (self): ER- NARRER, EAA 


global g queueURL 
global g existURL 
newUrlList=[] 
for content in g pages: 

newUrlListt=self.getUrl (content) 
g queueURL=list (set (newUrlList)-set(g existURL)) 


def getUrl(self,content): # 从 获取 的 网 页 中 解析 url 
link list = re. findall('«a href="/wiki/ ([*:#=<>]*?)".*?</a>', content) 
unique list = list(set(link list) ) 
return unique list 


class CrawlerThread(threading.Thread): EHE 
def init (self,url,tid): 
threading. Thread. init (self) 
self.url-url 
self.tid-tid 
def run(self): 
global g mutex 
global g writecount 


try: 
print (self.tid, "crawl ", self.url) 
headers = {'User-Agent' : 'Mozilla/5.0 (Windows; U Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'} 
r = requests.get ("https://en.wikipedia.org/wiki/" + self.url, headers- headers) 


html = r.text 


link list2 = re.findall('«a href="/wiki/ ([*:#=<>]*?)".*?</a>',htm1) 

unique list2 = list(set(link list2)) 

for eachone in unique list2: 
g writecount += 1 
content2 = "No." + str(g writecount) + "Nt Thread" + str(self.tid) + "\t"+ self.url + '-»' + eachone +'\n' 
with open('title2.txt', "at") as f: 

f.write (content2) 

except Exception as e: 
g mutex.acquire () 
g_existURL. append (self.url) 
g mutex. release () 
print ('Failed downloading and saving',self.url) 
print (e) 
return None 

mutex.acquire () 

g pages.append (html) 

g existURL.append(self.url) 

g mutex.release|() 


if name == " main ": 

url = "Wikipedia" 

threadnum = 5 

crawler - Crawler (url,threadnum) 
crawler.craw() 


CS sce f Crawler, E urzgEerRBSgItaise, threadnumfVEXEEZI, AVACrawlerss PA crawKan. 


在 Crawler 类 的 craw 函 数 中 ， 首 先 定 义 depth 深 度 为 1， 然 后 将 url 加 入 g_queueURL 等 待 乳 取 的 url 链 接 列表 中 。 接 着 进入 循环 ， 当 depth 小 于 3 时 ， 先 用 self.downloadAll0 函 数 使 用 多 线程 下 载 
9g_queueURL 中 所 有 页 面 的 词 条 链接 ， 当 完成 某 一 层 深 度 所 有 节点 的 爬 取 后 ， 使 用 self.updateQueueURL() 将 新 下 载 的 所 有 词 条 链接 加 入 g_queueURL 中 (除去 重复 的 和 新 下 载 的 ) 。 


在 downloadAll0 浮 数 中 ， 有 URL 可 以 息 虫 的 时 候 ， 其 中 代码 的 循环 会 不 断 创 建 线程 ， 直 到 达到 线程 数 的 最 大 值 或 胞 取 了 g_queueURL 中 所 有 的 链接 为 止 。 


假设 g9 queueURL 中 有 10 个 URL， 线 程 的 最 大 值 为 95。 程 序 在 循环 中 会 一 个 一 个 地 开启 线程 ， 直 到 开启 5 个 线程 为 止 ， 每 个 线程 用 来 怜 取 9g_queueURL 中 的 一 个 链接 。 这 5 个 线程 会 调用 download() 函 
zi, downloadQERZA JS FiCrawlerThread(threading.Thread)sEIBBXg queueURL 中 某 一 个 词 条 网 页 的 所 有 链接 。 


当 线 程 1 完成 后 ， 它 会 从 g_queueURL 提 取 第 6 个 URL 有 息 取 ;线程 2~5 完 成 后 也 会 如 此 。 当 某 线程 完成 下 载 后 ， 若 发 现 胞 取 队 列 为 空 ， 则 该 线程 会 退出 。 
这 样 便 完成 了 某 一 层 深度 的 息 虫 ，g_existURL 会 保存 胞 取 过 的 链接 ，g_pages 会 保存 刚刚 季 过 网 页 的 html| 源 代码 ， 我 们 需要 从 中 找到 所 有 的 词 条 链接 ， 用 来 开始 新 一 层 深度 的 肥 虫 。 


在 updateQueueURL( 函 数 中 ， 我 们 会 从 g_pages 中 获取 所 有 的 词 条 链接 ， 然 后 使 用 g_ queueURL=list(set(newUrlList)-set(g_existURU)) 去 除 重复 和 已 经 疏 取 过 的 链接 ， 这 就 是 更 新 过 后 的 
9g_queueURL 等 待 聆 取 的 URL 链 接 列 表 。 


完成 之 后 ， 将 深度 depth 加 1， 然 后 在 循环 中 怜 取 更 深 一 层 的 词 条 链接 ， 直 到 等 于 最 大 深度 为 止 。 


我 们 可 以 在 title2.txt 中 查看 顺利 获取 的 数据 ， 如 图 14-7 所 示 。 


最 终 获取 的 URL 数 量 为 190522 个 ， 


-]] title2.txt - 记事 本 
文件 (站 HAE) 


ThreadüÜ 
IhreadÜ 
ThreadÜ 
Thread0 
Thread 
Thread0 
Thread0 
Thread 
Thread0 
ThreadüÜ 
IhreadüÜ 
ThreadÜ 
Thread 
ThreadÜ 
Thread0 
IhreadÜ 
ThreadÜ 
ThreadÜ 
ThreadüÜ 
IhreadüÜ 
ThreadÜ 
Threadü 
Threadü 
Thread0 
Thread0 
Thread 


HETO) 


ErE(V) 帮助 (H) 


Wikipedia-»Viktoria Institute 
Wikipedia-»List of wikis 
Wikipedia-»List of Wikipedias 

Wkipedia-^2Web crawler 
Wikipedia—Paul. Kennedy. (host) 
Wikipedia-»Àmerican and British English spelling differences 
Wikipedia-»Lila Tretikov 

Wikipedia-^»0ne Hundred Year Study on Ártificial Intelligence 
WMkikipedia-»Library reference desk 
Wikipedia->DBpedia 

Wikipedia--Wiki software 
Wikipedla-»Procrastination 
Wikipedia-*DuckDuckto 

Wikipedia-»Susning. nu 
Wikipedia-»Integzrated Áuthority File 
Wikipedia-»belarusian Wikipedia 
Wikipedia-»DesanW.39*ATon 
Wikipedia--Wikiversity 
Wikipedia->Virtual_International_Authority_File 
Wikipedia-»Wiki markup 

Wikipedlia-»Linux 

Wikipedia-»Polish Wikipedia 

Wikipedia-»Florida 

Wikipedia-^GNE (encyclopedia) 

Wikipedia-»J]STOR 

Wikipedia-»AÀmerican Broadcasting Company 


图 14-7 查看 获取 的 数据 


花费 的 时 间 为 680 秒 。 


可 以 看 到 ， 基 于 深度 优先 的 递归 有 拒 虫 大 概 花 费 1957 秒 ， 是 多 线程 和 候 虫 的 3 倍 左右 。 这 里 仅 仪 经 过 了 一 次 测试 ， 虽 然 使 用 的 是 同一 网 络 ， 但 是 时 间 间 隔 为 一 天 左右 ， 不 能 进行 很 精准 的 比较 。 多 线程 他 虫 
确实 能 加 快 聆 虫 效率 ， 如 果 线 程 开 得 更 多 ， 相 信和 疏 虫 的 效率 会 更 高 。 


145 RA 


通过 本 章 的 学 习 ， 相 信 读 者 已 经 能 够 灵活 地 利用 基础 的 怜 虫 知识 获取 维基 百科 的 链接 了 。 另 外 ， 读 者 应 该 对 基于 深度 和 广度 的 爬虫 已 经 有 所 了 解 。 如 果 还 想 挑战 一 下 自己 ， 可 以 尝试 将 获取 深度 加 大 到 
第 3 层 ， 看 看 最 短 在 多 少 秒 之 内 能 够 完成 前 3 层 的 爬虫 。 


515% MEER: 知 乎 Live 


知 乎 是 中 文 互联 网 一 个 非常 大 的 知识 社交 平台 。 在 知 乎 上， 用 户 可 以 通过 问答 等 交流 方式 获取 知识 。 区 别 于 百度 知道 等 问答 网 站 ， 知 乎 的 回答 往往 非常 深入 ， 都 是 回答 者 精心 写 的 ， 知 乎 上 聚集 了 中 国 
互联 网 科技 、 商 业 、 文 化 等 领域 里 最 有 具 创造 力 的 人 群 之 一 ， 将 高 质量 的 内 容 通过 人 的 节点 形成 规模 的 生产 和 分 享 ， 构 建 高 价值 人 际 关系 网 络 。 


KE A NR FoF SEA ERA A, MAA eR AKA LAE VA FAP o 
COR: 解析 AJAX 动 态 加载 地 址 
“ 解析 网 页 : 提取 JSON 数 据 


- 存储 数据 : 存储 至 MongoDB 数 据 库 


15.1. MEHRA 


本 项 目的 目标 是 爬 取 知 乎 Live 的 所 有 实时 语音 分 享 以 及 知 平 Live 的 听众 。 知 平 Live 的 URL 地 址 为 https://www.zhihu.comylives， 如 图 15-1 所 示 。 


AUF GS ve (EMR B EcUE 


AFF Live 是 什么 ? 


改变 自己 的 心理 学 课 SOF Live 是 知 竹 挂 出 的 实时 语音 问答 产品 。 主 
WM: 动机 在 枕 放 讲 人 对 时 个 主 是 分享 知 识 、 经 验 或 见解 听众 
可 以 实时 提问 并 获得 解答 。 让 你 便 洼 且 高 效 地 

Live 课程 WES EUN 


零 基 础 如 何 一 年 考 过 CPA 六 门 HFE Live 公众 号 
SE We, rucdayan 。 便捷 高 效 的 收获 与 交流 


segue] | kok kkk 3.128 人 参与 。 及 时 获取 更 多 活动 资 计 


旅行 街头 滥 影 和 | 自拍 | EXT App 
= 7 提供 友好 便捷 的 Live 体验 


皮 起 一 场 Live 


成 为 主讲 人 , 参与 知识 分 字 


如 何 打造 一 个 十 亿美 元 的 创业 公司 ? 


Steven Hoffman 


图 15-1 #-fLive 


15.2 ”网 站 分 析 


打开 知 乎 Live 的 官方 网 站 主页 后 ， 我 们 发 现 它 一 次 只 会 加 载 10 个 Live， 并 且 加 载 的 方式 不 是 翻 页 ， 而 是 将 页 面 滑动 到 最 底部 ， 这 对 获取 新 加 载 的 Live 数 据 带 来 了 困难 。 不 过 不 用 担心 ， 前 面 章节 的 学 习 为 
读者 带 来 了 诸多 解决 方法 ， 这 里 用 到 的 方法 是 使 用 Chrome 浏 览 器 的 “检查 ”功能 解析 AJAX 动 态 加 载 地 址 ， 进 而 找到 加 载 的 数据 。 


打开 Chrome 浏 览 器 的 “检查 ”功能 ， 单 击 Network， 当 滑动 到 页 面 最 底部 时 ， 加 载 新 的 Live。Network 下 方 会 出 现 新 加 载 的 内 容 ， 如 图 15-2 所 示 。 


知识 体系 : 求知 与 博学 的 关键 
| 明 公 致知 


Sources Network Timelne Profiles Applicaton Securty Audits Adblock Plus 
= | Ø Presewelog O Disable cache | LJ Offline No throttling » 


JO Regex LJ Hide data URLs All XHR JS CSS Img Media Font Doc WS Manifest Other 


X Headers Preview Response Cookies Timing 
ll homefeed?limit=10&oftset=1490458785Sincludes=live ¥ General 
homefeed?limit=LO&offset= 1490458785 Sancludes=live Request URL: nttps://api.znihu.con/lives/homefeed?11mitz108&0f7set 214904587858 1ncludesz1lve 


Mi v2-9a2e658d1fo565fd6ded172eb9b137Be im jog €— seg RET 
tatus Code: @ 282 OK 
Remote Address: 116.211.157.187:443 


Reterrer Policy: no-referrer-when-downgrade 


M ielfdasd4 imjpg 
 cfichd9e2Ge4 14797 58a9abeide377e7b_imjpg 


wl v2-f05072fcBcce994c51bf47 36b90f6b7b_im.jog Y Response Headers at 


A v2-32c28e82192b553cbe1c2b556524932be jmJjpg Access-Contrel-Allow-Credentialc true 

Wi v2-0293286c2688105cd983682803b5760f imjpg Access-Control-Allow-Headers: Authorizaticn,Content-Type,X-API-Version 
id v2-fffc9efd35330b2123aa52d "ale4caía mpg Access-Control-Allow-Methods: GET,PATCH, PUT,POST DELETE, OPTIONS 
Access-Control-Allow-Origin: https: //www.zhihu.com 


2-66ace84cfad70b2668 30ac29d767 is. 
& v2-66ace84cfad70b2658a9b330ac29d767 isjpg SE 


NW 95648c79deaa3b515df5058b069a357350_isjpg Content-Encoding: gzip 


v2-1033898d327330bBedf59372b24fc697_im,jpg Content-Type: application/jzon; charzet-utf-8 
M v2-ca746dceb2c5b3626e516028cc139b49 im jpg Date: Thu, 38 Mar 2017 15:11:11 GMT 
. / `~ C 5 c fc P F273 r " 
l| 528202e42125c3c2317d284b0690a5c8 im jpg oe " Boa PERENNE TU 
ver. < 


Py ES crar Transfer-Encoding: chunked 


图 15-2 ”加 载 的 内 容 


可 以 发 现 ，Live 加 载 的 新 数据 是 请 求 了 https://api.zhihu.com/lives/homefeed?limit=10&offset=20&includes=live 这 个 网 页 的 json 数 据 。 单 击 Preview， 可 以 看 到 json 数 据 的 结构 ， 如 图 15-3 所 示 。 


X Headers 


Y {ise} 


Preview 


Response 


Cookies 


Timing 


attached info: "MiA2Mz11Z2jBjOGISN2YOYThmY jAwZWF iNWE2MmQzNGQzNwsz" 
v data: [(object type: "live", source type: "member",.), (object type: "live", source type: "member",..),..] 


F0: (object type: 
> 1: (object type: 
> 2: (object type: 
> 3: (object type: 
> 4: (0bject type: 
5: (object type: 
> 6: (object type: 
7: (object type: 


"live", 
"live", 
"live", 
"live", 
"live", 
"live", 
"live", 
"live", 


source type: 
Source type: 
source type: 
source type: 
source type: 
source type: 
source type: 
source type: 


"member", ...} 
"member", ..) 
"member",..) 
"member", ..) 
"member", ...} 
"member", ..} 
"member" ,..) 
"member", ..) 


F8: (object type: "live", source type: "member",..) 
P9: (object type: "live", source type: "member",..) 
v paging: (is end: false, next: “https://api.zhihu.com/lives/homefeed?limit=10&0ffset=30", previous: ""j 
is end: false 
next: "https://api.zhihu.com/lives/homefeed?limitsz10&offset-30" 
previous: "" 


图 15-3 json 数据 的 结构 


其 中 ，data 是 每 一 个 新 加 载 Live 的 数据 ; paging 可 以 知道 该 页 是 否 是 最 后 一 页 以 及 下 一 页 的 链接 。 如 果 paging 的 is_end 变 成 了 true， 就 代表 最 后 一 页 ， 这 样 我 们 就 可 以 顺 着 paging 提 供 的 信息 知道 之 
后 应 该 息 哪 一 页 ， 什 么 时 候 应 该 停止 候 虫 了 。 


在 获取 所 有 Live 的 信息 之 后 ， 还 要 根据 Live 的 id 获取 每 个 Live 的 听众 资料 。 我 们 可 以 随便 单 击 一 个 Live， 进 入 Live 的 页 面 后 ， 打 开 Chrome 的 审查 元 素 ， 可 以 看 到 “XX 人 参与 ”， 如 图 15-4 所 示 。 


ASTRI: A — 713 
+) 全 部 Live :— 热门 精 选 


E FESCH 


对 战 柯 洁 之 后 ， 找 们 如 何 看 AlphaGo 
( 往 期 评价 ) 


* XX X) 


李开复 > 


2017-05-27 20:00 


"eoe 


| (f) 送 给 好 友 | 赞助 并 参与 活动 ( ¥9.99 ) 


Audits 


X à] 
& © = Y View: = =~ 


| Filter 


Elements Console Sources Network Timeline Profiles Application Security Adblock Plus 


J Preserve log WW Disable cache Offline No throttling v 


O Regex LJ Hide data URLs All XHR JS CSS Img Media Font Doc WS Manifest Other 


Name Status Type Initiator Size Time Waterfall 100.00 4 


0/2requests | 0B/OB transferred 
图 15-4 Chrome 的 审查 元 素 


虽然 多 少 人 参与 这 个 Live 的 链接 已 经 无 法 获得 ， 但 是 我 们 之 前 已 经 获得 过 听众 的 链接 ， 发 现 Live 加 载 新 的 听众 数据 是 请 求 了 https://api.zhihu.com/lives/847817806807453696/members? 
limit=10&offset=10， 修 改 offset 便 可 以 获得 新 的 听众 数据 。 


15.3 项目 实施 


15.3.1 获取 所 有 Live 


首先 ， 尝 试 怜 取 Live 的 第 一 页 ， 解 析 AJAX 动 态 加 载 地 址 ， 知 道 第 一 页 的 地 址 为 https://api.zhihu.comylives/homefeed?includes=live。 下 面 是 简单 的 聆 虫 代码 : 


import requests 
def scrapy (link): 
headers = { 
'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36' 


) 
r — requests.get(link, headers- headers) 
return (r.text) 


link = "https://api.zhihu.com/lives/homefeed?includes-live" 
html = scrapy (link) 
print (html) 


输出 结果 是 我 们 需要 的 Live 数 据 : 

{"paging":{"is end":false,"next":"https://api.zhihu.com/lives/homefeed?limit=10&offset=1490443200","previous":""},"data":[{"object type":"live", 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/18359/OEBPS/Text/... 

"action":"new hot live","source id":0,"id":"live827121170288631808")]) 


除了 第 一 页 ， 我 们 还 需要 获取 其 他 页 的 Live 信 息 。 首 先 尝 试看 看 能 否 从 这 个 json 中 抽出 需要 的 数据 ， 包 括 下 一 页 的 链接 ， 以 及 是 否 为 最 后 一 页 。 


import json 

decodejson = json.loads (html) 

next page - decodejson['paging']['next'] 
is end = decodejson['paging']['is end'] 
print (next page) 

print (is end) 


https://api.zhihu.com/lives/homefeed?limit- 10& offset- 1494594000 
False 
这 表示 了 下 一 页 的 地 址 ， 以 及 并 不 是 最 后 一 页 。 


接 下 来 需要 完成 两 个 任务 : (1) 使 用 循环 获取 所 有 Live 的 数据 ， 到 最 后 一 页 的 时 候 停止 获取 ; (2) 将 数据 存储 到 MongoDB 中 。 下 面 是 完成 这 两 个 任务 的 代码 。 


import requests 

from pymongo import MongoClient 
import json 

import time 
import random 


# 连 接 MongoDB 
client = MongoClient ('localhost',27017) 
db = client.zhihu database 

collection = db.live 


TE SOME d eg A 
def scrapy (link): 
headers = { 
'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36' 


} 
r = requests.get (link, headers= headers, proxies=proxies) 
return (r.text) 


link = "https://api.zhihu.com/lives/homefeed?includes-live" 
is end = False 
# 循 环 获 取 所 有 Live 
while not is end: 
html = scrapy (link) 
decodejson = json.loads (html) 
collection.insert one (decodejson) 


link = decodejson['paging']['next'] 

is end = decodejson['paging']['is end'] 

print (link, is end) i 
time.sleep(random.randint(2,3) + random.random()) 


在 上 面 的 代码 中 ， 我 们 首先 连接 到 MongoDB 的 数据 库 中 ， 然 后 用 之 前 定义 好 的 scrapy(0 函 数 去 获取 弹 幕 。 
为 了 获取 所 有 的 页 面 ， 这 里 使 用 了 一 个 while 循 环 ， 保 证 不 是 最 后 一 页 的 时 候 继 续 礁 取 下 一 页 。 在 循环 中 ， 将 得 到 的 json 数 据 直 接 插入 (insert one) MongoDB 的 集合 


这 样 的 好 处 是 ， 不 用 解析 json 数 据 即 可 直接 保存 到 MongoDB 中 ， 省 时 省 力 。 运 行 完成 后 ， 打 开 Robomongo， 查 看 的 结果 如 图 15-5 所 示 。 


live wW 0. 003 sec. 


Key Value 
4 EY (1) Objectid( 58e59ca8898fc80c88460dd2") ( 3 fields ) 
= id Objectid(" 58e59ca8898fc80c88460dd2") 
4 EY paging ( 3 fields ) 
WF) is end false 
"". next https:;//api.zhihu.com/lives/homefeed?limitz 10& offs... 
previous 
data [ 10 elements ] 
[0] ( 6 fields ) 
> € [1] ( 6 fields } 
) [2] ( 6 fields ) 
3 [3] ( 6 fields ) 
[4] { 6 fields ) 
y [5] ( 6 fields ) 
JU [6] ( 6 fields ) 
D [7] ( 6 fields ) 
3 [8] { 6 fields } 
> [9] ( 6 fields ) 
3 (2) Objectid("58e59ca8898fc80c88460dd3") {3 fields} 
(3) Objectid(" 58e59ca8898fc80c88460dd4") ( 3 fields ) 
3 (4) Objectid(58e59ca9898fc80c88460dd5") {3 fields} 
(5) Objectid(* 58e59ca9898fc80c88460dd6") ( 3 fields ) 
3 (6) Objectid("58e59ca9898fc80c88460dd7") {3 fields} 
(7) Objectid(* 58e59caa898fc80c88460dd8") ( 3 fields ) 


图 15-5 查看 结果 


如 果 你 还 没有 安装 Robomongo， 建 议 安装 一 下 。 这 是 一 个 MongoDB 的 可 视 化 工具 ， 能 够 非常 清晰 、 明 白地 展示 MongoDB 的 数据 库 情况 。 


15.3 项目 实施 


15.3.1 ”获取 所 有 Live 


首先 ， 尝 试 他 取 Live 的 第 一 页 ， 解 析 AJAX 动 态 加 载 地 址 ， 知 道 第 一 页 的 地 址 为 https://api.zhihu.com/lives/homefeed?includes=live。 下 面 是 简单 的 他 虫 代码 : 


import requests 
def scrapy (link): 
headers = { 
'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36' 


} 
r = requests.get (link, headers= headers) 
return (r.text) 


link = "https://api.zhihu.com/lives/homefeed?includes-live" 
html = scrapy (link) 
print (html) 


输出 结果 是 我 们 需要 的 Live 数 据 : 

{"paging":{"is end":false,"next":"https://api.zhihu.com/lives/homefeed?limit=10&offset=1490443200","previous":""},"data":[{"object type":"live", 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/18359/OEBPS/Text/... 

"action":"new hot live","source_id":0,"id":"live827121170288631808"}}} 


除了 第 一 页 ， 我 们 还 需要 获取 其 他 页 的 Live 信 息 。 首 先 举 试看 看 能 否 从 这 个 json 中 抽出 需要 的 数据 ， 包 括 下 一 页 的 链接 ， 以 及 是 否 为 最 后 一 页 。 


import json 

decodejson = json.loads (html) 

next page = decodejson['paging']['next'] 
is end = decodejson['paging']['is end'] 
print (next page) 

print (is end) 


运行 上 述 代码 ， 得 到 的 结果 是 : 
https://api.zhihu.com/lives/homefeed?limit- 10& offset- 1494594000 


False 


这 表示 了 下 一 页 的 地 址 ， 以 及 并 不 是 最 后 一 页 。 


接 下 来 需要 完成 两 个 任务 : (1) 使 用 循环 获取 所 有 Live 的 数据 ， 到 最 后 一 页 的 时 候 停止 获取 ; (2) 将 数据 存储 到 MongoDB 中 。 下 面 是 完成 这 两 个 任务 的 代码 。 


import requests 

from pymongo import MongoClient 
import json 

import time 

import random 


# 连 接 MongoDB 
client = MongoClient ('localhost',27017) 
db = client.zhihu database 

collection = db.live 


TE SOME d eg A 
def scrapy (link): 
headers = { 
'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36' 


} 
r= requests.get (link, headers- headers, proxies-proxies) 
return (r.text) 


link = "https://api.zhihu.com/lives/homefeed?includes-live" 
is end = False 
# 循 环 获取 所 有 Live 
while not is end: 
html = scrapy (link) 
decodejson = json.loads (html) 
collection.insert one (decodejson) 


link = decodejson['paging']['next'] 

is end = decodejson['paging']['is end'] 

print (link, is end) i 
time.sleep(random.randint(2,3) + random.random()) 


在 上 面 的 代码 中 ， 我 们 首先 连接 到 MongoDB 的 数据 库 中 ， 然 后 用 之 前 定义 好 的 scrapy(0 函 数 去 获取 弹 幕 。 
为 了 获取 所 有 的 页 面 ， 这 里 使 用 了 一 个 while 循 环 ， 保 证 不 是 最 后 一 页 的 时 候 继 续 礁 取 下 一 页 。 在 循环 中 ， 将 得 到 的 json 数 据 直 接 插入 (insert one) MongoDB 的 集合 中 。 


这 样 的 好 处 是 ， 不 用 解析 json 数 据 即 可 直接 保存 到 MongoDB 中 ， 省 时 省 力 。 运 行 完成 后 ， 打 开 Robomongo， 查 看 的 结果 如 图 15-5 所 示 。 


live v 0.003 sec. 


Key Value 
4 £ (1) Objectid(" 58e59ca8898fc80c88460dd2") ( 3 fields ) 
| 1d Objectid(" 58e59ca8898fc80c88460dd2") 
4 EY paging ( 3 fields ) 
w is end false 
“" next https://api.zhihu.com/lives/hometeed ?limit=10&ofts... 
previous 

ti) data [ 10 elements ] 
[0] ( 6 fields ) 
3 [1] { 6 fields } 
[2] ( 6 fields ) 
3 [3] ( 6 fields ) 
[4] ( 6 fields ) 
Ð [5] { 6 fields } 
[6] ( 6 fields ) 
> € [7] ( 6 fields ) 
> € [8] { 6 fields } 
> &3 [9] { 6 fields ) 
© (2) Objectld("58e59ca8898fcB0c88460dd3") {3 fields} 
EY (3) Objectid( 58e59ca8898fc80c88460dd4") ( 3 fields ) 
€3 (4) Objectld("58e59ca9898fc80c88460dd5") {3 fields} 
3 (5) Objectid(* 58e59ca9898fc80c88460dd6") ( 3 fields ) 
© (6) Objectid("58e59ca9898fc80c88460dd7") {3 fields} 
EY (7) Objectid(* 58e59caa898fc80c88460dd8") { 3 fields } 


图 15-5 查看 结果 


如 果 你 还 没有 安装 Robomongo， 建 议 安装 一 下 。 这 是 一 个 MongoDB 的 可 视 化 工具 ， 能 够 非常 清晰 、 明 白地 展示 MongoDB 的 数据 库 情况 。 


15.3.2 ”获取 Live 的 听众 


在 获取 了 所 有 的 Live 后 ， 我 们 需要 从 Live 中 获取 id， 然 后 根据 id 获取 听众 的 列表 。 首 先 需 要 从 MongoDB 中 提取 live 的 id， 先 尝试 提取 第 一 页 live 所 有 的 jd， 代码 如 下 : 


from pymongo import MongoClient 
client = MongoClient ('localhost',27017) 
db = client.zhihu database 


collection = db.live 


first page - collection.find one() 
for each in first page['data']: 
print (each['live']['id']) 


运行 上 述 代 码 ， 获 得 的 结果 是 : 


989811253094866944 


812015618365743104 


870704471959822336 


826057084528394240 


860165089880330240 


835121024906432512 


897097999497437184 


850711363683770368 


1045284726512451584 


927876522726027264 


共 获 取 了 10 条 Live 的 jd。 当然 ， 不 同时 间 的 爬虫 获取 的 Live id 是 不 一 样 的 。 其 中 ，collection.find_one( 用 于 查看 集合 的 第 一 条 记录 ， 在 测试 之 后 ， 可 以 用 collection.find() 得 到 集合 的 所 有 记录 。 


假设 


import requests 


from pymongo import MongoClient 


import json 
import time 
import random 


client = MongoClient ('localhost',27017) 
db = client.zhihu database 


live id = '989811253094866944' 


def 


get audience(live id): 


headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64) Appl 
link = 'https://api.zhihu.com/lives/' + live id + '/members?limit=] 


已 经 有 了 一 个 Live 的 id， 是 989811253094866944。 怎 么 获得 这 个 Live 的 所 有 听众 呢 ? 如 何 把 听众 的 信息 加 入 MongoDB 中 呢 ? 其 代码 如 下 : 


leWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36'} 


O&offset-0' 


is end = False 

while not is end: 
r — requests.get(link, headers- headers) 
html = r.text 
decodejson = json.loads (html) 
decodejson['live id'] = live id 
db.live audience.insert one (decodejson) 


link = decodejson['paging']['next'] 

is end = decodejson['paging']['is end'] 
print(link, is end E 
time.sleep(random.randint(2,3) + random. random ()) 


get audience (live id) 


TERRIER, BEÉXget audience(live_id) 和 之 前 获取 live 信 息 的 代码 类 似 ， 也 是 获取 该 Live 听 众 第 一 页 的 json 数 据 后 ， 加 入 MongoDB 中 ， 然 后 使 用 循环 获取 该 Live 下 一 页 的 听众 ， 直 到 最 后 一 页 。 


获取 的 数据 在 Robomongo 中 ， 如 图 15-6 所 示 。 


Key 


v &3 (1) Objectld("5c053edafadf3789e45f4291") 


id 
paging 
LJ data 
=" [ive id 
(2) Objectid("*5c053ef0fadf3789e45f4292") 
(3) Objectid("5c053f06fadf3789e45f4293") 
(4) Objectid("5c053f1 cfadf3789e45f4294") 
(5) Objectid("5c053f32fadf3789e45f4295") 
(6) Objectid("5c053f48fadf3789e45f4296") 
) (7) Objectid("5c053f5efadf3789e45f4297") 
(8) Objectid("*5c053f75fadf3789e45f4298") 
(9) Objectid("5c053f8bfadf3789e45f4299") 
€ (10) Objectid("5c053fa1fadf3789e45f429a") 
E&Y (11) Objectid("5c053fb7fadf3789e45f429b") 
EY (12) Objectld("5c053fcefadf3789e45f429c") 
EY (13) Objectid("5c053fe4fadf3789e45f429d") 
EY (14) Objectid("5c053ff9fadf3789e45f429e") 
EY (15) Objectid("5c05401 0fadf3789e45f429f") 


Value 

{ 4 fields } 
Objectid("5c053edafadf3789e45f4291") 
{ 3 fields } 

[ 10 elements ] 
989811253094866944 
( 4 fields ) 

( 4 fields ) 

( 4 fields ) 

( 4 fields ) 

( 4 fields ) 

( 4 fields ) 

( 4 fields ) 

( 4 fields ) 

( 4 fields ) 

( 4 fields ) 

( 4 fields ) 

( 4 fields ) 

( 4 fields ) 

( 4 fields ) 


图 15-6 ”获取 的 结果 


如 果 要 获取 每 一 个 Live 的 听众 ， 就 需要 将 上 述 两 段 代 码 结合 起 来 ， 一 方面 从 Live 的 集合 中 提取 出 Live id， 另 一 方面 用 这 个 Live id 获 取 所 有 的 听众 ， 并 存储 在 live_collection 中 。 其 代码 如 下 : 


import requests 

from pymongo import MongoClient 
import json 

import time 

import random 


client = MongoClient ('localhost',27017) 
db = client.zhihu database 


for each page in db.live.find(): 
for each in each page['data']: 
live id = each['live']['id'] 
print (live id) 
get audience (live id) 


在 上 述 代 码 中 ，get audience(live id) 使 用 的 是 之 前 的 函数 ， 这 里 就 不 再 重复 了 。 运 行 代 码 后 ， 获 得 的 结果 如 图 15-7 所 示 。 


Key Value 

> EY (1) Objectid("591c59a33898fc819b8e98efc") ( 4 fields ) 
(2) Objectid("591c59a7898fc819b8e98efd") { 4 fields } 
(3) Objectid(" 591c59aa898fc819b8e98efe") ( 4 fields } 
(4) Objectid(" 591c59ac898fc819b8e98eff") ( 4 fields ) 
(5) Objectid(" 591c59af898fc819b8e98f00") ( 4 fields ) 
(6) Objectid(*591c59b2898fc819b8e98f01") ( 4 fields } 
(7) Objectid(" 591c59b5898fc819b8e98f02") ( 4 fields ) 
(8) Objectid(" 591c59b8898fc819b8e98f03") ( 4 fields ) 
(9) Objectid(*591c59bb898fc819b8e98f04") ( 4 fields ) 
(10) Objectid(" 591c59be898fc819b8e98f05") ( 4 fields ) 
(11) Objectid("591c59c1898fc819b8e98f06") ( 4 fields ) 
(12) Objectid(*591c59c5898fc819b8e98f07") { 4 fields } 
(13) Objectid(* 591c59c9898fc819b8e98f08") ( 4 fields ) 
(14) Objectid("*591c59cd898fc819b8e98f09") ( 4 fields } 
(15) Objectld("591c59d1898fc819b8e98f0a") { 4 fields } 
(16) Objectld("591c59d3898fc819b8e98f0b") { 4 fields } 
(17) Objectid(*591c59d7898fc819b8e98f0c") ( 4 fields ) 
(18) Objectid( 591c59db898fc819b8e98f0d") ( 4 fields ) 
(19) Objectid("*591c59dd898fc819b8e98f0e") ( 4 fields } 
(20) Objectid("591c59e0898fc819b8e98f0f") ( 4 fields ) 
(21) Objectid("*591c59e4898fc819b8e98f10") ( 4 fields ) 
(22) Objectid(*591c59e7898fc819b8e98f11") ( 4 fields ) 
(23) Objectid('591c59ea898fc819b8e98f12") ( 4 fields ) 
(24) Objectid("* 591c59ef898fc819b8e98f13") ( 4 fields } 
(25) Objectld("591c59f3898fc819b8e98F14") { 4 fields } 
3 (26) Objectld("591c59f7898fc819b8e98F15") { 4 fields } 
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图 15-7 获得 的 结果 


15.4 Bae 
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第 16 章 ”有 拒 虫 实践 三 : 百度 地 图 API 


百度 地 图 是 一 款 网 络 地 图 搜索 服务 。 在 百度 地 图 里 ， 用 户 可 以 查询 街道 、 商 场 、 楼 盘 的 地 理 位 置 ， 也 可 以 找到 离 你 最 近 的 餐馆 、 学 校 、 人 银行、 公园 等 。 百 度 地 图 提供 了 丰富 的 API 供 开发 者 调用 ， 我 们 可 
以 免费 地 获取 各 类 地 点 的 具体 信息 。 


本 章 为 使 用 百度 API 获 取 数 据 的 实践 项 目 ， 所 采用 的 技术 包括 : 
: 爬 取 网 页 : 使 用 Requests 请 求 百 度 地 图 API 地 址 
解析 网 页 : 提取 JSON 数 据 


- 存储 数据 : 存储 至 MySQL 数 据 库 


本 项 目的 目标 是 通过 百度 地 图 Web 服 务 API 获 取 中 国 城市 的 公园 数据 ， 并 且 获 取 每 一 个 公园 具体 的 评分 、 摘 述 等 详情 ， 最 终 将 数据 存储 到 MySQL 数 据 库 中 。 


百度 地 图 Place API 的 地 址 为 http://lbsyun.baidu.com/index.php?title=webapi/guide/webservice-placeapi， 如 图 16-1 所 示 。 


aswel 
AS 


WEB 服务 API 


百度 地 图 Web 服 务 API 为 开发 许 提 殿 httplhttps 接 口 ， 妈 开发 者 通过 httpihttps 形 式 发 起 检索 请 求 ， 获 职 返 
辐 Jjson 或 xml 格 式 的 栓 案 数据。 用 户 可 以 其 于 此 开发 JavaScript、C#。、C++、JaVa 等 语言 的 地 图 应 用 . 


立即 使 用 


服务 文档 


Web API 按 口服 务 ; 
tuf 


图 16-1 百度 地 图 Place API 


其 实 ， 网 络 季 虫 除了 可 以 直接 进入 该 网 站 的 网 页 进行 代 取 外 ， 还 可 以 通过 网 站 提供 的 APl 进 行 公 取 。 由 于 APl 是 官方 提供 的 数据 获取 通道 ， 因 此 数据 的 获取 是 没有 争议 的 。 如 果 一 个 网 站 提供 API 获 取 数 
据 ， 那 么 最 好 使 用 API 获 取 ， 既 简单 又 方便 。 


除了 本 章 提 到 的 百度 地 图 ， 其 他 国内 提供 API 免 费 获取 数据 的 站 点 还 有 新 浪 微 博 、 豆 瓣 电 影 、 俄 了 么 、 豆 瓣 音 乐 等 ， 国 外 提供 API 的 服务 有 Facebook、Twitter 等 。 除 此 之 外 ， 还 有 很 多 收费 的 AP| 数 据 
站 点 ， 包 括 百度 API Store 和 聚合 数据 等 ， 对 这 些 有 兴趣 的 读者 可 以 去 搜索 一 下 。 


16.2 ”获取 API 秘 钥 


首先 ， 打 开 百 度 地 图 Place APl， 如 果 有 百度 账号 ， 可 以 单 击 右上 角 的 “登录 。 登 录 后 可 以 进入 “控制 台 ”， 单 击 “ 创 建 应 用 ”按钮 ， 如 图 16-2 所 示 。 


>) 应 用 列表 


图 16-2 ”API 控制 台 


填写 好 应 用 名 称 ， 并 选择 使 用 IP 白 名 单 校 验方 式 进行 校 验 。 在 IP 白 名 单 的 文本 框 中 填写 0.0.0.0/0， 以 表示 不 想 对 IP 做 任何 限制 ， 如 图 16-3 所 示 。 单 击 “ 提 交 ” 按 钮 后 ， 即 可 在 API 控 制 台 中 看 到 自己 的 
AK， 也 就 是 API 请 求 串 的 必 填 参数 。 


应 用 名 称 : 


应 用 类 型 : 


test 


BE SS um 


云 存储 

正 逆 地 理 编 码 
静态 图 
Bara 
批量 算 路 


推荐 上 和 车 点 
驾车 路 线 规划 ( 轻 量 ) 
公交 路 线 规划 ( 轻 量 ) 


苦 通 |p 定 位 
FRESE 

Sif RE 

去 地 理 编 码 

轨迹 纠偏 AP| 

v 骑 行 路 线 规划 ( 轻 量 ) 
Smee 名 


地 点 检索 

路 线 规划 

坐标 转换 

云 逆 地 理 编码 

时 区 
实时 路 况 查 询 AP| 
步行 路 线 规划 ( 轻 量 ) 


请 求 校 验 方式 : ”IP 白 名 单 校 验 


0.0.0.0/0 


图 16-3 ”使 用 IP 白 名 单 校 验方 式 


请 注意 ， 每 一 个 账号 一 天 只 有 2000 次 的 调用 限额 ， 并 发 是 每 秒 2 次 。 如 果 进 行 了 认证 ， 一 天 就 会 有 10 万 次 的 调用 限额 。 


16.3 项目 实施 


本 项 目的 实施 分 为 以 下 3 步 : 
(1) 获取 所 有 拥有 公园 的 城市 ， 并 存储 至 TXT。 
(2) 获取 所 有 城市 的 公园 数据 ， 并 存储 至 MySQL。 
(3) 获取 所 有 公园 的 详细 信息 ， 并 存储 至 MySQL。 
在 百度 地 图 Place API 中 ， 如 果 需 要 获取 数据 ， 向 指定 的 URL 地 址 发 送 一 个 GET 请 求 即 可 。 例 如 ， 要 获取 数据 的 城市 为 北京 ， 检 索 关 键 字 为 “饭店 ”， 检 索 后 返回 10 条 数据 ， 可 以 请 求 下 面 的 地 址 : 
http:/ /api.map.baidu.com/place/v2/seatch?q- 4&5 &region- Jb 5x &output=json&ak= f& $4 AK 
该 地 址 中 有 一 些 需要 设置 的 参数 ， 常 用 的 参数 如 表 16-1 所 示 。 


表 16-1 常用 的 参数 及 其 含义 


参数 | 是 否 必须 BMA “示例 


wey | 是 | 无 Taman | s 关键 字 


个 分 类 以 "" 分 隔 


region mum | 是 | 无 一 | 并 UT 全 国 | 检索 区 域 (市 级 以 上 行政 区 域 ) 


scope 检索 结果 详细 程度 。 若 取 值 为 1 或 空 ， 
则 返回 基本 信息 ; HB 2. Mun] 
检索 POI 详细 信息 


Lud w pm s : HaT | = ” i — 7 
大 返回 20 条 
| adi ^ | n i 


ouput — | fi — |xml |xml json | 输出 格式 为 json 或 xml 
ak | 是 | 无 |f TEY 用 户 的 访问 秘 铀 ， 必 填 项 


如 果 你 想 深 入 了 解 Place API 的 参数 和 使 用 ， 可 以 访问 之 前 公布 的 百度 地 图 Place API 的 地 址 。 


下 面 尝试 获取 北京 市 的 公园 数据 ， 并 用 JSON 数 据 格式 返回 。 


#!/usr/bin/python 
# coding: UTF-8 


import requests 
import json 


def getjson(loc, page num=0): 

headers = ('User-Agent' : 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'] 
pa — ('q': , 

'region': loc, 

'scope': E 

'page size': 20, 

'page num' bee num, 

ao. 

‘ak' "DER A scu Oud, 


} 
r = requests.get ("http: //api.map.baidu.com/place/v2/search", params=pa, headers= headers) 
decodejson = json. loads (r.text) 

return decodejson 


getjson ("AER TH") 


得 到 的 结果 如 图 16-4 所 示 。 


"status" :0, 
"message : ok", 
“total” :400, 
“results” :| 
i 
“name”: “(BAA Ed", 
"location": | 
"lat" :39. 998475, 
"lng :116.27487 
I, 
“address” :" 北京 市 海 注 区 产 建 宫 | E195", 
"street id :'2aTa25becfOcfl3636d3elbad', 
"telephone" :"010-62881144", 
"detail':1, 
"uid : 2aTa25ecf9cf13636d3elbad', 
"detail info :| 
"tag" "ihe Ea ARK”, 
“type”: "scope", 
"detail url": “http: //api. map. baidu co 
"price : 30", 
"overall rating : 3.8, 
"image num : 219", 
"comment num : 2239" 


图 16-4 获取 北京 市 的 公园 数据 


16.3.1 ”获取 所 有 拥有 公园 的 城市 


接 下 来 获取 所 有 拥有 公园 的 城市 ， 并 把 结果 写 入 MySQL 中 。 
在 百度 地 图 的 Place APl 中 ， 如 果 region 的 取 值 为 “全 国 ” 或 某 省 份 ， 就 返回 指定 区 域 的 POI 及 数量 。 例 如 ， 设 置 region 为 广东 省 ， 可 以 得 到 广东 省 各 个 市 的 情况 : 


{"status":0,"message":"ok", "total":21,"results":[{"name":" 广 州 市 ","num":1369},{"name":" 深 圳 市 ","num":1006},{"name":" 东 莞 市 ","num":501},{"name":" 佛 山 市 ","num":818}),{"name":" 惠 州 


市 ","num":192},http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/18359/OEBPS/Text/..(' name": z3&rb"," num":27]] 


我 们 可 以 把 region 设 置 为 各 个 省 份 ， 进 而 获取 各 市 的 公园 数量 。 值 得 注意 的 是 ， 由 于 四 大 直辖 市 dom. bis, AB. BR) 、 香 港 特 别 行政 区 和 澳门 特别 行政 区 一 个 城市 便 是 省 级 行政 单位 ， 因 此 
region 设 置 的 省 份 不 包含 这 些 特殊 省 级 行政 单位 。 


#!/usr/bin/python 
# coding: UTF-8 
import requests 
import json 


def getjson(loc, page num = 0): 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/18359/OEBPS/Text/... # 同 上 面 的 getjson 函 数 相同 


province list = [" 江 苏 省 7， "浙江 省 '"， 'RA', WER, uet, Te, "河北 省 "， Wie, Tt, “云南 省 "， "湖南 省 !， "湖北 省 '，“" 江 西 省 "， "ES, "山西 省 "， “广西 壮族 自治 区 "， Re 


for eachprovince in province list: 


decodejson = getjson (eachprovince) 


for eachcity in decodejson['results']: 


city = eachcity['name'] 
num = eachcity['num'] 
output = '\t'.join([city, str(num)]) + '\r\n' 


with open('cities.txt', "a+" , encoding-'UTF-8') as f: 
f.write (output) 
f.close() 


输出 的 结果 如 图 16-5 所 示 。 


_| cities.tet - 记事 本 


= 
— a 


文件 (F) 编辑 (E) 格式 (Q) Be) 帮助 (H) 
“ir 597 
Tio 
032 
32T 


ETETETETEHETETETETET 


dod 
243 
23b 
231 
162 
162 
122 
118 


图 16-5 ”显示 输出 的 结果 


我 们 还 要 获取 4 个 直辖 市 和 香港 地 区 、 澳 门 地 区 的 数据 (本 实例 未 对 台湾 地 区 进行 统计 ) 。 使 用 下 面 的 代码 可 以 获取 这 6 个 城市 的 公园 数量 ， 并 存储 至 cities.txt。 


import requests 
import json 
def getjson (loc, page num = 0): 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/18359/O0EBPS/Text/... # 与 上 面 的 getjson 函 数 相同 


decodejson = getjson(' 全 国 ') | . ar 
ties list = [' 北 京 市 ', ' 上 海 市 ', ' 重 庆 市 ', ' 天 津 市 ', ' 香 港 特别 行政 区 ',' 澳 门 特别 行政 区 '] 

for eachprovince in decodejson['results']: 

Ci! 


Six cii 


1f 


ty = eachprovince['name'] 
num = eachprovince['num'] 
city in six cities list: 


output = 'Nt'.join([city, str(num)]) + '\r\n' 


with open('cities.txt', "a+" , encoding-'UTF-8') as f: 
f.write (output) 
f.close() 


输出 到 cities.txt 的 结果 如 图 16-6 所 示 。 


图 16-6 ”输出 的 结果 


16.3.2 ”获取 所 有 城市 的 公园 数据 


在 从 各 个 城市 获取 公园 的 数据 之 前 ， 需 要 在 MySQL 数 据 库 中 创建 一 个 baidumap 数 据 库 ， 用 来 存放 所 有 数据 。 打 开 MySQL 8.0 Command Line Client-Unicode, 输入 : 


CRE 


ATE 


DATAI 


BASI 


E baidumap; 


然后 ， 需 要 在 baidumap 数 据 库 中 创建 一 个 city 的 数据 表格 ， 用 来 存放 所 有 城市 的 公园 数据 。 这 个 表格 里 面 的 变量 有 哪些 呢 ” 可 以 在 浏览 器 中 打开 一 个 查询 北京 的 公园 的 地 
tit: http://api.map.baidu.com/place/v2/search?q= 公 园 &region= 北 京 &scope=2&page size=20&page num=0&output=json&ak= 你 的 ak， 如 图 16-7 所 示 。 


"results" :[ 


{ 
"name" : “PAME”, 
“location”: { 
“lat” :39. 998475, 
“Ing” :116. 27487 


Is 
" address" : "北京 市 海淀 区 新 建言 | ] 路 19 号 "， 
"street id':"2aTa2becf9cf13636d3elbad', 
"telephone" :" 010-62881144", 


" detail'":1, 
^uid :"2aTa25ecf9cf 13636d3e Ibad", 
“detail info’: { 
"tag':" 旅游 景点 :风景 区 “， 
“type”: “scope”, 
"detail url':"http:// api. map. baidu com/ place/ detail?uid-2aTa25ecf9cf1l3636d3elbad&output-html&source-placeapi v2", 
"price :° 30", 
"overall rating':"3.5', 
"image num : 219", 
"comment num :' 2239" 


图 16-7 查询 北京 的 公园 


在 图 16-7 中 ， 公 园 的 变量 有 : city, park, location lat, location Ing, address, street id, telephone, detail, uid, tag. type, detail url, price, overall rating, image num, 
comment_num。 为 了 避免 数据 存储 的 重复 ， 公 园 的 详细 信息 会 在 另 一 个 表 保 存 ， 这 个 表 主 要 用 来 存放 城市 的 公园 名 称 ， 所 以 这 个 名 为 city 的 数据 表 的 变量 有 : city. park, location lat, location Ing, 


address, street id, uid, 


我 们 可 以 使 用 Python 的 mysqlclient 库 来 操作 MySQL 数 据 库 ， 在 baidumap 数 据 库 中 加 入 这 个 表格 。 


#coding=utf-8 
import pymysql 


db = pymysql.connect ("localhost", "root", "password", "baidumap") 
cursor = db.cursor() 


sql = """CREATE TABLE city ( 
id INT NOT NULL AUTO INCREMENT, 
city VARCHAR(200) NOT NULL, 
park VARCHAR (200) NOT NULL, 

location lat FLOAT, 

location lng FLOAT, 

address VARCHAR (200), 

treet id VARCHAR(200), 


id VARCHAR (200), 
reated time TIMESTAMP DEFAULT CURRENT TIMESTAMP, 
RIMARY KEY (id) 


) ZUM 


S 
u 
C 
E 


cursor.execute (sql) 
db.commit () 
db.close () 


iz MRICS MAA mes, FSR A City, (ASR: 


import 
import 
import 
import 


requests 
json 
pymysql 
time 


db = pymysql.connect ("localhost", "root", "password", "baidumap") 
cursor = db.cursor() 


def getjson(loc,page num): 


headers = ('User-Agent' : 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'} 
pa = { 

wars VA, 

'region': loc, 

'scope': '2', 


'page size': 20, 
'page num': page num, 
'output': 'json', 
'ak': 'DDtVK6HPruSSkqHRj5gTkOrc'] 
r — requests.get ("http://api.map.baidu.com/place/v2/search", params-pa, headers- headers) 
decodejson = json.loads (r.text) 
time.sleep (1) 
return decodejson 


for eachcity in city list: 
not last page - True 
page num = 0 
while not last page: 
decodejson - getjson(eachcity, page num) 
print (eachcity, page num) 
if decodejson['results']: 
for eachone in decodejson['results']: 
try: 
park = eachone['name'] 
except: 
park - None 


try: 

location lat = eachone['location']['lat'] 
except: 

location lat - None 
try: 

location lng = eachone['location'] ['lng"] 
except: 

location lng = None 
try: 


address = eachone['address"] 
except: 

address = None 
try: 


street id = eachone['street id'] 
except: 
street id = None 


try: 
uid = eachone['uid'] 
except: 
uid = None 
sql = """INSERT INTO baidumap.city 
(city, park, location lat, location lng, address, street id, uid) 
VALUES 


fe} Ls © Qo © [e] © e WV 
(SS, SS, $s, SS, SS, SS, $8); 


cursor.execute (sql, (eachcity, park, location lat, location lng, address, street id, uid,)) 
db.commit () 
page num += 1 
else: 
not last page - False 
cursor.close() 
db.close() 


在 上 述 代 码 中 ， 首 先 从 TXT 文件 中 获取 城市 列表 ， 并 加 入 city _ list 中， 然后 使 用 循环 对 每 一 个 城市 、 每 一 个 页 面 进行 抓 取 。 将 获取 的 数据 用 INSERT 的 方法 加 入 baidumap.city 数 据 表 中 。 
值得 注意 的 是 ， 因 为 有 一 些 变量 在 某 些 公园 缺失 (如 有 些 公园 没有 街道 id (street id) ) ， 所 以 需要 使 用 try...except 的 方法 ， 如 果 在 decodejson 中 并 没有 该 变量 ， 就 会 将 None ( 空 值 ) 赋予 该 变量 。 


执行 完成 后 ， 可 以 在 MySQL 的 Workbench 查 看 数据 ， 输 入 如 下 代码 : 


SELECT * FROM baidumap.city; 


得 到 的 数据 表格 详情 如 图 16-8 所 示 。 


park location lat location Ing address street id uid 
玄武 湖 公 园 32.0786 118.8 南京 市 立 武 区 玄武 埠 1 旦 ( 近 洞 庭 路 ) 6265d58ddc79ad6idfie5286 ”6265d58ddc79ad61dfle5286 


珍珠 泉 公园 32.1281 118.665 南京 市 浦口 区 珍珠 街 178 号 f633606a 1b34ba4e0b69d9fc  f633606a1b34ba4e0b69d9fc 


红 山 森林 动物 园 32.0988 118.809 江苏 省 南京 市 红 山 路 153 号 61l0ee7c0al4acf654e5547a0 03ff6e2ecd84c091bea24001 
古林 公园 32.0725 118.76 I émemaeepEHESR21E cSbscdefee5cd91ai130daa75 c8bScdefee5cd91a130daa75 
金牛 湖 公 园 32.4755 118.975 金牛 湖 景区 53 号 34e48508f7ei05e2d9d891e0 ^ 34e48508f7e105e2d9d891e0 


"m. p 


图 16-8 ”数据 表格 详情 


16.3.3 ”获取 所 有 公园 的 详细 信息 


baidumap 数 据 库 已 经 有 了 city 这 个 表格 ， 存 储 了 所 有 城市 的 公园 数据 。 但 是 这 些 数 据 属 于 比较 粗略 的 公园 数据 ， 接 下 来 我 们 将 利用 百度 地 图 的 Place 详情 检索 服务 获取 每 一 个 公园 的 详情 。 


例如 ， 查 询 南 京 玄武 湖 公 园 的 详细 信息 ， 玄 武 湖 公 园 的 uidq 是 6265d58ddc79ad61df1e5286， 于 是 在 浏览 器 地 址 栏 输入 : http://api.map.baidu.com/place/v2/detail? 
uid=6265d58ddc79ad61df1e5286&output=json&scope=2&ak= 你 的 ak。 


得 到 的 结果 除了 一 般 的 信息 ， 还 包括 如 图 16-9 所 示 的 信息 。 


"shop hours": "平日 : 06:00 18:00 节 假日 : 06:00 20:00", 
"alias':" $Rbmrh zi 2s E$z EORR SZ EE, 
"Scope. type": 3B", 
"scope grade :" AAAA”, 


"descriptio; RHA ER BER XDSSZENdOS. ARV BSRSH. 位 于 南京 城中 
ZAI SARM. BARN: AAM e TLHSASM2—) ELARANWA SE. 被 党 为 “金陵 明珠 
19095 PA Eds RANA ARADA: MAM MATE ER- DRAW AK: 


图 16-9 ”显示 公园 的 详细 信息 
我 们 可 以 在 MySQL 中 创建 一 个 表格 park， 用 来 存放 公园 的 详细 信息 。 


下 面 使 用 Python 的 mysqlclient 操 作 MySQL Server 创 建 表格 park， 代 码 如 下 : 


#coding=utf£-8 
import pymysql 


db = pymysql.connect ("localhost", "root", "password", "baidumap") 
cursor = db.cursor() 
sql = """CREATE TABLE park ( 

id INT NOT NULL AUTO INCREMENT, 

park VARCHAR (200) NOT NULL, 
location lat FLOAT, 
location lng FLOAT, 
address VARCHAR (200), 
street id VARCHAR (200), 
telephone VARCHAR (200), 
detail INT, 
uid VARCHAR (200), 
tag VARCHAR (200), 
type VARCHAR (200), 
detail url VARCHAR (800), 
price INT, 
overall rating FLOAT, 
image num INT, 
comment num INT, 
shop hours VARCHAR (800), 
alias VARCHAR (800), 
keyword VARCHAR (800), 
scope type VARCHAR (200), 
scope grade VARCHAR (200), 
description VARCHAR (9000), 
created time TIMESTAMP DEFAULT CURRENT TIMESTAMP, 
PRIMARY KEY (id) 7 


) pee 


cursor.execute (sql) 
db.commit () 
db.close () 


创建 好 数据 表 park 后 ， 就 可 以 使 用 Python 获取 公园 的 详细 信息 了 。 首 先 ， 我 们 要 把 之 前 获取 的 uid 提 取出 来 。 代 码 如 下 : 


import 
import json 
import 


import 


time 


requests 


pymysql 


db = pymysql.connect ("localhost", "root", "password", "baidumap") 
cursor = db.cursor() 


sql = "Select 


uid 


cursor.execute (sql) 


db.commit () 


results = cursor.fetchall() 


From baidumap.city where id > 0;" 


这 里 需要 从 baidumap.city 表 格 中 获取 所 有 的 uid， 这 用 到 了 SQL 命令 : Select uid from baidumap.city where id>0， 然 后 用 到 了 cur.fetchall( 方 法 ， 可 以 接收 全 部 返回 的 结果 行 。 


接 下 来 ， 我 们 就 需要 使 用 uid 获 取 每 一 个 公园 的 详细 信息 了 。 代 码 如 下 : 


import 
import json 
import 


import 


time 


requests 


pymysql 


db = pymysql.connect ("localhost", "root", "password", "baidumap") 
cursor = db.cursor() 


sql = "Select 


uid 


db.commit () 


results = cursor. fetchall () 


: 'Mozilla/5.0 


from baidumap.city where id > 0;" 
cursor.execute (sql) 


Gecko/20091201 Firefox/3.5.6') 


(Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) 


ts.get ("http://api.map.baidu.com/place/v2/detail", params-pa, headers- headers) 


def getjson (uid): 
headers = {'User-Agent' 
pa = { 
'uid': uid, 
'scope': '2', 
'output': 'json', 
'ak': 'DDtVK6HPruSSkqHRj5gTkOrc' 
} 
r = request 
time.sleep (1) 
decodejson = json.loads (r.text) 
return decodejson 
for row in results: 


uid = row 


decodejson = getjson (uid) 


[0] 


print (uid) 
info = decodejson['result'] 


try: 

park = info['name'] 
except: 

park = None 
try: 

key words = '' 


except: 


key words list = in 
for eachone in key words list: 
key words = key words + eachone['keyword'] + '/' 


key words = None 
#http: //www.hzco 


Fo['detail inf 


o']['di review keyword'] 


urse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/18359/OEBPS/Text/.. .中 间 省 略 了 一 些 变量 


sql = """INSERT INTO baidumap.park 

(park, location lat, location 1ng, address, street id, uid, telephone, detail, tag, detail url, type, overall rating, image num, 
comment num, keyword, shop hours, alias, scope type, scope grade, description) 

VALUES 

(Ss, SS, $s, SS, SS, SS, SS, SS, SS, SS SS, SS, SS, SS, SS, SS, SS, SS, SS, $S);""" 


cursor.execute (sql, 


db. commit 


(park, location lat, location lng, address, street id, uid, telephone, detail, tag, detail url, 


type, overall rating, image num, comment num, key words, shop hours, alias, scope type, scope grade, description,)) 


() 


cursor.close () 


db.close() 


首先 需要 从 baidumap.city 表 格 中 获取 所 有 的 uid， 这 里 用 到 了 SQL 命令 : Select uid from baidumap.city where id>0， 然 后 用 到 了 cur.fetchall( 方 法 ， 可 以 接收 全 部 返回 的 结果 行 。 


对 于 每 一 个 结果 ， 使 用 uid 到 函数 getjson() 获 取 数 据 ， 然 后 执行 SQL 语句 ， 并 插入 表格 baidumap.park 中 。 


执行 完成 后 ， 我 们 可 以 在 MySQL 的 Workbench 查 看 数据 ， 输 入 : 


ELECT * FROM 


baidumap.park; 


得 到 的 数据 表格 详情 如 图 16-10 所 示 。 


id 

» |1 

2 

3 

4 

5 
4 | 

' num 
+ 
4 


park 
玄武 湖 公园 
珍珠 泉 公 园 


红 山 森林 动物 加 


古林 公园 
金牛 湖 公园 


comment num 
991 


81 
140 
16 
97 


location lat — location Ing address street id telephone 
32.0786 118.8 MAARRE EGA) 6265d58ddc79ad6idfie5286 ^ 025-83614286 
32.1281 118.665 南京 市 浦口 区 珍珠 街 178 吕 f633606a1b34ba4e0b69d9fc ^ (025)58601545 
32.0988 118.809 江苏 省 南京 市 红 山 路 153 号 610ee7c0a14acf654e5547a0 (025)85518101 
32.0725 118.76 IPSA RMA AKELES c8b5cdefee5cd91a130daa75 (025)83700646 
32.4755 118.975 金牛 湖 景区 53 号 34e48508f7e105e2d9d891e0 (025)57566968 
"m | p 
shop_hours alias keyword scope type scope grade description created time 
A: 06:005... ”多 南京 市 玄武 ,， 风景 优美 /环境 ,.， 湖泊 AAAA 玄武 湖 古 名 法 泊 中 国 ,.，2017-04-05 00:53:33 
珍珠 泉 风景 区 ..， S$ 珍珠 泉 $ 珍 ..， 风景 逊 行 /环境 ..， 山岳 /山岭 ..，AAAA 珍珠 泉 旅游 度假 区 占 ..。 2017-04-05 00:53:33 
3 月 -10 月 : 7: .. SPEI... 环境 很 好 /风景 ..， 动 植物 园 AAAA 红 山 森林 动物 园 由 南 ,,， 2017-04-05 00:53:33 
古林 公园 ( 虎 ..， 环 境 不 错 / 店 内 ..， 公园 古林 公园 位 于 南京 清 .…， 2017-04-05 00:53:33 
-— $ 人 金牛 湖 $ 侈 ,.， ”湖面 好 /风景 优 ..， 湖泊 AAA 江苏 经 典 民歌 茉莉 花 ,.， 2017-04-05 00:53:33 


| m IRA 


图 16-10 使 用 MySQL 获 取 数 据 


本 次 抓 取 获得 了 所 有 公园 的 详细 信息 ， 并 存 入 了 表 park 中 。 


16.4 RA 


本 章 实践 了 如 何 使 用 API 获 取 数 据 ， 以 及 如 何 解析 JSON 数 据 并 将 数据 存储 到 MySQL 中 。 如 果 还 想 通过 API 获 取 其 他 数据 ， 百 度 地 图 的 API 拥 有 丰富 的 餐馆 、 房 地 产 等 数据 ， 可 以 尝试 使 用 本 章 的 方法 获 
取 。 


第 17 草 ”有 拒 虫 实践 四 : 畅销 书籍 


我 们 平时 去 在 购买 书籍 之 前 ， 总 喜欢 看 看 畅销 的 书籍 有 哪些 ， 别 人 的 评价 怎么 样 ， 再 决定 是 否 购买 。 亚 马 逊 电 商 网 站 最 早 就 是 从 卖 书 做 起 的 ， 所 以 本 章 选 择 亚 马 逊 作为 案例 来 获取 畅销 书 榜 单 的 数据 ， 
以 及 相应 的 评论 数据 。 


本 章 为 疏 取 亚马逊 数据 的 实践 项 目 ， 所 采用 的 技术 包括 : 
: 4& M Selenium HE Ji p] 35 
- 使 用 BeautifulSoup 解 析 网 页 


- 数据 存储 至 CSV 文 件 


17.1 MEHRA 


本 项 目的 目标 是 候 取 亚马逊 中 国 网 站 的 书籍 信息 。 首 先 使 用 Selenium 获 取 网 页 的 信息 ， 然 后 使 用 BeautifulSoup 解 析 网 页 中 的 数据 ， 最 终 将 数据 存储 至 CSV 文 件 中 。 
本 项 目的 数据 获取 分 为 三 步 : 

(1) 获取 亚马逊 的 总 体 图 书 销售 榜 。 

(2) 获取 亚马逊 图 书 各 个 分 类 的 销售 榜 。 

(3) 进入 每 本 书 的 网 页 ， 获 取 书 籍 的 评论 。 


亚马逊 中 国 图 书 销售 榜 的 地 址 为 https://www.amazon.cn/gp/bestsellers/books/ref=sv b 3， 如 图 17-1 所 示 。 


aniažonon | = Kindle 好 书 超 值 享 限时 下 单 1.99 元 ( 
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我 的 第 一 下 专注 力 训 党 书 ( 专 渤 的 孩子 更 更 归 ] 
奖 国 次 十 后 公 司 


ft sed aT 4779 


图 17-1 LAMA BABE I 


17.2 ”网 站 分 析 


首先 打开 亚马逊 图 书 销售 榜 ， 发 现 第 一 页 只 加 载 了 50 本 图 书 。 如 果 需 要 拒 取 后 面 排 名 的 图 书 ， 要 单 击 “ 下 一 页 ” 换 页 ， 最 多 只 有 两 页 。 从 第 一 页 翻 页 到 第 二 页 ， 第 二 页 的 网 址 


是 https://www.amazon.cn/gp/bestsellers/books/ref=zg_bs pg 2?ie=UTF8&pg=2。 单 击 回 第 一 页 ， 我 们 发 现 第 一 页 的 地 址 是 : https://www.amazon.cn/gp/bestsellers/books/ref=zg bs pg 1? 
ie=UTF8&pg=1 


其 实 ， 网 址 有 两 个 变化 : 一 是 zg_bs_pg_1 变 成 了 zg_bs pg 2, —&pg-18Epk f pg-2. Alt, TAEEÍBUXPST Me, RODE NIBRGHESBEGTS T. 


此 外 ， 我 们 还 可 以 通过 Chrome 浏 览 器 的 “检查 ”功能 找到 想 要 的 数据 地 址 ， 如 图 17-2 所 示 。 可 以 发 现 ， 所 有 的 图 书 都 在 一 个 id 为 zg-ordered-list 的 ol 中 ， 我 们 可 以 从 中 提取 图 书 的 数据 。 


“所 有 部 门 


Hements Console Sources Network Performance Memory Application Securty Audits Adblock Plus 
Fidiv id-"zg-right-col" class-"a-fixed-left-grid-col a-col-right" style="pedding-left: 0%; width: 196%;float:right; "> 

kzhl class="a-size-large a-spacing-medium zg-margin-left-15 a-text-bold">.</hl> 

"div id-"zg-center-div" 
¿diw id-"zg pageInfo" initialload-"true" page-"1":z/div* 

Tol id="ze-ordered-11st" class-"a-ordered-l1st a-vertlical" role-"grid":; 

Fili class=" zBg-item-immenrsicn role- gridre yf 1l 
keli class-"zg-item-immersion" role-"gridrell"3.«/11» 
kzli class-"zg-iten-immersion" role="gridcell">.<¢/1i> 
Fili rlass-"zg-item-immerslon" role-"gridrell"3.«/11» 


BF I= 
经 济 学 讲义 


a 


Audits Adblock Plus 


Elements Console Sources Network Performance Memory Application Security 
P <li class-"zg-item-immersion" role="gridcell">..</1li> 
«li class-"zg-item-immersion" role="gridcell”>.</1i> 
</ol> 
«div class-"a-row a-spacing-top-mini">..</div> 
</div> 
</div> 
¥<div id-"zg-left-col" class-"a-fixed-left-grid-col a-col-left" style="width: 200px;margin-left : -200px;float:none;"> 
¥<ul id-"zg browseRoot"» 
<li class="zg_browseUp">.</1i> 
¥ <ul> 
» <1i></1i> 
¥ «ul» 
"db 
£a href-"https://www.amazon.cn/gp/bestsellers/books/658394051/ref-zg bs nav b 1 b'»X3X«/a» 
</1i> 
» <1i>..</1i> 


Al7-3 ”获取 所 有 分 类 的 地 址 


在 第 三 步 中 ， 当 我 们 单 击 进入 一 本 图 书 的 评论 页 面 后 ， 可 以 获取 该 图 书 的 所 有 评论 。 使 用 Chrome 浏 览 器 的 “审查 元 素 ” 功 能 可 以 发 现 ， 所 有 的 评论 都 在 一 个 id 为 cm_cr-review _list 的 div 中 ， 如 图 17-4 
所 示 。 


E nl | Elements Consele Sources Network Performance Memory Application Security Audits Adblock Plus 
£a l1d-"rewlgws-filter-bar"z/a» 
kidiv id-"cm cr-view opt search" class-"s-row a-spacing-lnrge celwidget reviews-sort-filter o-size-base" data-cel-widget-"cm cr-view opt search"».t(div? 
F odiv id-"cm cr-view apt sort filter" cless-"a-row a-spacing-lerge celwidget reviews-sort-filter a-sire-bnse" date-cel-widget-"cm cr-view opt sort filter" >ei div>? 
wedly clas&-"a-sectlon a-spaclng-nome reusiess-cnntent s-slze-hgie"- 
idiv class="a-sectlon revlews-loading aaok-hidden":cy/dius 
# ¿giv clasz-"a-sertion a-cpacing-top-Large a-texrt-center reyiew-filter-errür asok-hidden c/divs 


id-"RIPC 

l1d-"R3KHIFMNBNSGUAIJ" data-houk-"rewview" class-"m-section review" sc div 

ldz"R3IFKRYL2OFETY" data-hook="review" class="a-section review": cfdülus 
"R3UMNIBZSMTRGL" data-hook-"review^ class-"a-cection review". /ü0iw 

id-"Rl1B8MWGASHS57ZXYW" data-hook-"^review^ clazs-"a-zectinn review" :.:füiu 

id-"Rl1PPaMGXL3MOPLU" data-hook-"review* class-"a-sectinum review" .i/diw? 

id-"RBOFHJQFAADES9" data-haok-"reyiew" class-"a-section review" em diwr 


图 17-4 获取 该 图 书 的 评论 


17.3 项目 实施 


本 项 目的 实施 分 为 以 下 三 步 : 
(1) 获取 亚马逊 的 总 体 图 书 销售 榜 ， 并 人 存储 至 CSV 文 件 中 。 
(2) 获取 亚马逊 图 书 各 个 分 类 的 销售 榜 ， 并 人 存储 至 CSV 文 件 中 。 


(3) 进入 每 本 书 的 了 网页， 获取 书籍 的 评论 ， 并 存储 至 CSV 文 件 中 。 


17.31 ”获取 亚 马 过 的 图 书 销售 榜 列 表 


首先 使 用 Selenium 打 开 亚 马 逊 中 国 的 图 书 销售 榜 页 面 ， 代 码 如 下 : 


from selenium import webdriver 
driver = webdriver.Firefox() 
driver.get ("https://www.amazon.cn/gp/bestsellers/books") 


运行 之 后 ， 程 序 报错 : 
selenium.common.exceptions.WebDriverException:Message:'geckodriver'executable needs to be in PATH. 


在 Selenium 之 前 的 版 本 中 ， 这 样 做 是 不 会 报错 的 ， 但 是 Selenium 新 版 无 法 运行 。 我 们 要 下 载 geckodriver， 可 以 到 https://github.com/mozilla/geckodriver/releases 下 载 相应 操作 系统 的 
geckodriver， 这 是 一 个 压缩 文件 ， 解 压 后 可 以 放 在 桌面 ， 如 C:\Users\santostang\Desktop\geckodriver.exe。 最 后 的 代码 如 下 : 


from selenium import webdriver 


driver = webdriver.Firefox(executable path = r'C:\Users\ santostang\Desktop\geckodriver.exe') 
# 把 上 述 地 址 改 成 你 电脑 中 geckodriver .exe 程 序 的 地 址 


driver.get ("https://www.amazon.cn/gp/bestsellers/books") 
为 了 加 快 加 载 过 程 ， 还 可 以 采用 限制 加 载 图 片 和 JavaScript 的 方法 。 加 入 限制 加 载 图 片 和 JavaScript 的 方法 后 ， 代 码 如 下 : 


from selenium import webdriver 


fp = webdriver.FirefoxProfile() 

fp.set preference ("permissions.default.image",2) 

fp.set preference ("javascript.enabled", False) 

driver = webdriver.Firefox(executable path = r'C:\Users\ santostang\Desktop\geckodriver.exe', firefox profile = fp) 


# 把 上 述 地址 改 成 你 电脑 中 Firefox 程 序 的 地 址 


driver.get ("https://www.amazon.cn/gp/bestsellers/books") 


通过 此 方法 得 到 的 网 站 情况 如 图 17-5 所 示 。 
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图 17-5 ”限制 加 载 图 片 和 JavaScript 


我 们 可 以 党 试 从 数据 中 提取 需要 的 数据 ， 包 括 图 书 标题 、 作 者 、 星 级 、 评 论 数 、 评 论 地 址 、 价 格 等 。 在 下 面 的 代码 中 ， 定 义 了 一 个 函数 outputOneResult， 该 函数 使 用 BeautifulSoup 提 取 数 据 。 


def outputOneResult(soup, output list, category): 
ol = soup.find('ol', id='zg-ordered-list') 
For item in ol.find all("li"): 
try: # 提 取 排 名 
rank = item.find("span", class -'zg-badge-text').text.strip() 
rank rank.replace ("#", "") 
except: 
rank =" 
try: # 提 取 标 题 


title = item.find("div", class -'pl3n-sc-truncated').text.strip() 
except: 

title 一 ww 
try: PERE 

link = "https://www.amazon.cn"+ item.find("a", class -'a-link-normal') ["href"] 
except: 

link 一 "un 


try: PERIE 

name = item.find("div", class -'a-row a-size-small').text.strip() 
except: 

name 一 "uw 
try: PEREK 


star = item.find("span", class -'a-icon-alt').text.strip() 


star = star.replace ("平均 ",，"") replace ("2,1") yeplace( ","") 
except: 
star =" 
try: ”# 提 取 评 论 数 
comment = item.find("a", class -'a-size-small a-link-normal').text.strip() 
comment = comment.replace(",", "") 
except: 
comment = "" 
try: ” # 提 取 评 论 链接 
commentlink = "https://www.amazon.cn"+ item.find("a", class -'a-size-small a-link-normal') ["href"] 
except: 
commentlink = "" 


try: ”# 提 取 价 格 


price = item.find("span", class -'pl3n-sc-price').text.strip() 


price = price.replace("Y", "") 
except: 

price 一 ow 
if title [= ""; 


output list.append([rank, title, category, link, name, star ,comment, commentlink, price]) 
return output list 


在 上 述 函 数 中 ， 首 先 使 用 ol=soup.find(ol,id='zg-ordered-list) 找 到 了 所 有 的 图 书信 息 ， 然 后 保存 在 变量 ol 中 。 接 下 来 使 用 循环 提取 想 要 的 餐厅 信息 ， 并 加 入 output list 列 表 中 。 值 得 注意 的 是 ， 提 取 
星 级 的 时 候 ， 由 于 结果 是 一 个 字符 串 ， 所 以 要 使 用 star.replace(" 平 均 "”"").replace(" 星 """).replace("","")， 把 其 他 无 用 字符 都 替换 掉 ， 最 后 剩 下 的 是 数字 。 


如 果 需 要 把 两 页 的 数据 都 提取 出 来 ， 相 应 的 代码 如 下 : 


from bs4 import BeautifulSoup 
import csv 
import time 
from selenium import webdriver 


fp = webdriver.FirefoxProfile() 

fp.set preference ("permissions.default.image",2) 
fp.set preference ("javascript.enabled", False) 
driver = webdriver.Firefox(executable path = r'C:\Users\santostang\Desktop\geckodriver.exe', firefox profile = fp) 


# 把 上 述 地 址 改 成 你 电脑 中 Firefox 程 序 的 地 址 


for i in range(1,3): 

link = "https://www.amazon.cn/gp/bestsellers/books/ref-zg bs pg " + str(i) + "?ie=UTF8&pg=" + str(i) 
driver.get (link) E SES 

driver.implicitly wait (30) 

soup = BeautifulSoup (driver.page source, "|xml") 


output list -[] 


output list = outputOneResult (soup, output list, "总 体 ") 


print (output list) 


as csvfile: 


with open('book list.csv', 'at', newline-'', encoding-'utf-8') 
spamwriter = csv.writer(csvfile,dialect-'excel') 
spamwriter.writerows (output list) 

time.sleep (2) 


根据 第 4 章 介绍 的 方法 ， 我 们 采用 隐 性 等 待 方法 implicitly wait(x0， 它 会 设置 一 个 最 长 等 待 时 间 ， 如 果 在 规定 时 间 内 网 页 加 载 完 成 ， 就 执行 下 一 步 ， 否 则 一 直 等 到 时 间 截 止 再 执行 下 一 步 。 此 外 ， 还 可 


以 采用 限制 加 载 图 片 和 JavaScript 的 方法 ， 以 加 快 加 载 过 程 。 
在 上 述 代 码 中 ， 我 们 使 用 一 个 循环 来 聆 取 第 一 页 和 第 二 页 ， 在 每 次 爬 取 后 ， 数 据 都 会 输入 output list 中。 最 后 把 数据 写 入 CSV 中 。 


在 成 功 执行 代 虫 程序 后 ， 得 到 的 数据 如 图 17-6 所 示 。 
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1 薛 兆 丰 经 济 学 讲义 总 体 
2 我 的 第 一 本 专注 力 训练 书 (专注 总 
3 象 康 永 的 情商 课 : 为 你 自己 苦 一 次 | 总 体 
4 (进口 原版 ) 皮特 猫 Pete the Cat Ti 总体 
52i] z 
6 128 A4 
TZA 
8 BA2 
9 $2 
10 读 客 经 典 文库 :漫长 的 告别 
11 (英文 原版 ) Baby Loves STEM 44: = 
12 作家 榜 经 典 月 亮 与 六 便士 (全 新 示意 
13 原则 总 
14 乌 合 之 俯 : 大 众 心理 研究 
15 高 难度 沟通 : 麻 省 理工 高 人 气 沟 通 : 总 
16 局 外 人 { 诸 贝尔 文学 奖 60 周 年 纪念 号 
17 深度 思考 :不 断 逼 近 问 题 的 本 质 
18 自控 力 { 斯 坦 福 大 学 广 受 欢迎 心理 总体 
19 三 体 (1-3)( 套 装 共 3 册 ) 总 体 
20 人 类 简 史 :从 动物 到 上 帝 总 体 


17.3.2 ”获取 所 有 分 类 的 销售 榜 


需要 获取 所 有 分 类 的 销售 榜 ， 我 们 要 经 过 如 下 两 步 : 
(1) 获取 所 有 分 类 的 销售 榜 地 址 。 


(2) 获取 各 个 销售 榜 里 的 图 书信 息 。 


虽然 分 成 了 两 个 步骤 ， 但 是 获取 销售 榜 的 图 书信 息 我 们 刚刚 已 经 获取 了 总 体 销售 榜 的 图 书信 息 ， 所 有 我 们 可 以 把 刚刚 的 代码 封装 成 一 个 函数 。 这 样 的 话 ， 后 续 获 取 各 个 销售 榜 的 图 书信 息 的 时 候 ， 就 可 


以 直接 调用 了 。 代 码 如 下 : 


https://www.amazon.cn/dp/B07FDT8P6C/ref RKE 
https;//www.amazon.cn/dp/B0083DPOCY/ref 美国 迪士尼 
Ihttps://www.amazon.cn/dp/BO7K138VGY/ref 你 康永 
https://www amazon cnydpy0062404474/ref James Dear 
https://www.amazon.cn/dp/B073UR2)F/ref= 芥川 龙 之 介 
https://www.amazon.cn/dp/BO7JYOTK8V/ref fi t 
https;//www.amazon.cn/dp/B07 GQX1TBW/rt ifr 4c t8 
https;//www.amazon.cn/dp/B07D577S2Q/re: ifr 4c t8 
https://www.amazon.cn/dp/B07C9D919P/ref icr & 18 
https;//www.amazon.cn/dp/B07 GW2LWSG/r E ke 
https;//www.amazon.cn/dp/163289033X/ref. 3-3 
https://www.amazon.cn/dp/B01NAS120)/ref 毛 姆 
https://www.amazon.cn/dp/BO78FFX8B6/ret: HAAR 
https://www.amazon.cn/dp/BOO35RP348/ref 4 Bris X «8 
https;//www.amazon.cn/dp/B07896QS5D/re: RAAF 
https;//www.amazon.cn/dp/BO7 4BNFY1H/ret JO 
https://www.amazon.cn/dp/B07 GVXHCXH/re 莫 琳 - 希 凯 
https;//www.amazon.cn/dp/B076285WTM/re SIL] Bt Je 
https://www.amazon.cn/dp/BOOOB3SNMY/re Xi] 2& Fr 
https://www.amazon.cn/dp/BO6VXL4CZN/re JE E. 2g eiie 


E17-6 RR FS BE 


21 https//www.amazon.cn/product- reviews/BO7l 
4779 https//www.amazon.cn/product- reviews/BOO: 
18 https://www.amazon.cn/product-reviews/B07! 

3 https//www.amazon.cn/product- reviews/006: 
158 https//www.amazon.cn/product- reviews/BO/: 
4 https//www.amazon.cn/product - reviews/BOT. 

16 https://www.amazon.cn/product-reviews/BO7! 
24 https;//www.amazon.cn/product- reviews/BO7l 
226 https://www.amazon.cn/product- reviews/BO7! 
93 https://www.amazon.cn/product-reviews/BO7! 


541 https//www.amazon.cn/product- reviews/BO1l 
221 https//www.amazon.cn/product- reviews/BO7: 
1402 https://www.amazon.cn/product- reviews/BOO: 
143 https;//www.amazon.cn/product- reviews/BO7: 
107 https//www.amazon.cn/product- reviews/BO/: 
50 https//www.amazon.cn/product- reviews/BO/! 
6802 https:;//www.amazon.cn/product- reviews/BO7I 
4824 https://www.amazon.cn/product- reviews/BOO! 
559 https;//www.amazon.cn/product- reviews/BO6' 


def getBookInfo(category id, category name) 

for i in range(1,3): 
link = "ht 
driver.get (link) 
driver.implicitly wait (30) 


tps: //www.amazon.cn/gp/bestsellers/books/" + str(category id) + "/rei 


soup = BeautifulSoup (driver.page source, "lxml") 
output list =[] 
output list = outputOneResult (soup, output list, category name) 


print (output list) 


with open('book list.csv', ‘at’, 
spamwriter = csv.writer(csvfile,dial 


newline-'', 


as csvfile: 


encoding-'utf-8') 
ect-'excel') 


spamwriter.writerows (output list) 
time.sleep (2) 


f=zg bs pg " + str(i) + "?ie-UTF8&pg-" + str(i) 


上 述 代码 其 实 将 之 前 的 代码 封装 成 了 一 个 函数 ， 并 做 了 一 点 小 改动 。 因 为 分 类 排行 榜 的 链接 地 址 和 总 体 排行 榜 的 链接 地 址 还 是 有 不 同 之 处 的 : 会 在 中 间 加 入 分 类 ID， 例 
如 : https://www.amazon.cn/gp/bestsellers/books/658394051/ref=zg bs pg 2?ie=UTF8&pg=2， 所 以 要 修改 把 取 的 链接 。 另 外 还 要 写 入 相应 的 分 类 名 称 。 


接 下 来 ， 我 们 就 需要 获取 每 个 分 类 排行 榜 的 图 书 详细 信息 了 。 代 码 如 下 : 


from bs4 import BeautifulSoup 
import csv 
import time 
from selenium import webdriver 


fp = webdriver.FirefoxProfile() 
fp.set preference ("permissions.default.image",2) 
fp.set preference ("javascript.enabled", False) 


driver = webdriver.Firefox(executable path = r'C:\Users\santostang\Desktop\geckodriver.exe', 


# 把 上 述 地 址 改 成 你 电脑 中 Firefox 程 序 的 地 址 


file = 


Firefox pro 


driver.get ("https://www.amazon.cn/gp/bestsellers/books") 


BeautifulSoup (driver.page source, "lxml") 


soup = 
# 获取 各 个 分 类 的 排行 榜 


# 提取 分 类 的 链接 和 名 称 

link = each.a["href"] 

category id = link.split("/") [6] 
category name = each.a.text 

print (link, category id, category name) 
# 调 用 函数 


getBookInfo(category id, category name) 


for each in soup.find("ul", id-"zg browseRoot"). 


ul.ul.find all("li"): 


上 述 代 码 首 先进 入 总 销售 排行 榜 的 网 页 ， 使 用 soup.find("ul",id="zg_browseRoot").ul.ul.find_all("li") 提 取 分 类 的 链接 和 名 称 ， 然 后 调用 函数 getBooklnfo() 来 将 各 分 类 排行 榜 的 图 书 详细 信息 存 入 CSV 


在 成 功 执行 他 虫 程序 后 ， 得 到 的 数据 如 图 17-7 所 示 。 


B C 


D E 


B H | 


1 余华 : 第 七 天 (2018R&, th (QE XE 
2 江 国 香 织 : 下 雨天 一 个 人 在 家 (EMS 
3 那不勒斯 四 部 曲 (SMR RS 
4 全 民 自 黑 的 英国 : 其 实 是 一 本 全 [文学 
5 7f] 文学 


6 鲁迅 文学 全 集 ( 共 7 册 】 (一 字 未 & 文 学 
7 我 曾 莫 伤 地 爱 过 这 个 世界 : 纪 伯 伦 :文学 
8 青青 陌 上 双 (畅销 书 作家 陆 观 澜 ! 文 学 
9 读 客 经 典 文库 :漫长 的 告别 


文学 
10 大 美人 〈 数 次 蝉联 美国 亚马逊 kin' 文学 
11 局 外 人 ( 诺 贝 尔 文学 奖 60 周 年 纪念 文学 
12 黑暗 诱惑 (美国 亚马逊 年 度 推 荐 书 文学 
13 读 客 经 典 文库 : 包 法 利夫 人 (BixE 
14 世界 经 典 悬 念 小 说 大 合集 (套装 共 , 文 学 
15 烟火 人 间 ( 老 舍 经 自作 品 精 选集 纪 文学 
b 


https://www.amazon.cn/dp/B07G71HCDC/re 


16 ZE z 


17| 一 百 个 人 的 十 年 | 
18 读 客 经 典 文库 : HET (日 本 随 s 文 学 
19 JI BH 
20 山河 故人 


5X X3 
文学 


文学 
文学 


£i 
https://www.amazon.cn/dp/BO7H4LHG9R/re SL HEA 
https://www.amazon.cn/dp/BO7HSW1241/re RE HS 
https;//www.amazon.cn/dp/B07HQCWOTT/rt KE n-th 3€ $8 
https://www.amazon.cn/dp/BO73UR2)F/ref= 芥川 龙 之 介 
https://www.amazon.cn/dp/BO7HJVRDSS/ref 鲁迅 
https;//www.amazon.cn/dp/BO7HRGFZTK/re: tA Fi) 8-42 {E 
https://www.amazon.cn/dp/BO7GKWPZ)J9/re BERR js 
https://www.amazon.cn/dp/BO7GW2LWSG/r E s í& «$5 3 
https://www.amazon.cn/dp/BO7HDXVC85/re f&$gs&r-n& & 
https;//www.amazon.cn/dp/B074BNFY1H/ret W 


https://www.amazon.cn/dp/BO7HDYINL6/ret 97 35 &r-3e fg pss 


https://www.amazon.cn/dp/BO7GR2TNZ6/re 福 楼 拜 
https;//www.amazon.cn/dp/BO7)VFQYT1/ref: fS B5 3& 7j 
https://www.amazon.cn/dp/B076M6H62K/re 老舍 
https;//www.amazon.cn/dp/B07HVRDGJS/re: 严歌苓 
https;//www.amazon.cn/dp/B0767197MG/re 3587 
https://www.amazon.cn/dp/BO7JFXOFYY/ref: 清 少 纳 言 
https://www.amazon.cn/dp/BO7GW3N4N7/r 3& R) 


https;//www.amazon.cn/dp/B07C5H8DTP/re: st $$ 3 


图 17-7 各 个 分 类 排行 榜 的 图 书信 息 


2120 https//www.amazon.cn/product-reviews/B07! 
6 https//www.amazon.cn/product-reviews/EBO07l 
10 https//www.amazon.cn/product-reviews/BO7l 
5 https//www.amazon.cn/product-reviews/BO7| 
158 https//www.amazon.cn/product-reviews/B0 7: 
3 https//www.amazon.cn/product-reviews/B07| 
14 https//www.amazon.cn/product-reviews/B07| 
39 https //www.amazon.cn/product-reviews/B07! 
93 https//www.amazon.cn/product-reviews/BO7! 
1 https//www.amazon.cn/product-reviews/BO7l 
107 https//www.amazon.cn/product-reviews/B07: 


2 https//www.amazon.cn/product-reviews/B07! 


46 https//www.amazon.cn/product-reviews/B07I 


220^ 
c.c. 


https//www.amazon.cn/product-reviews/BO7! 


15 https//www.amazon.cn/product-reviews/BO7! 
6 https//www.amazon.cn/product reviews/B07! 


17.3.3 ”获取 图 书 的 评论 


要 获取 图 书 的 详细 评论 ， 首 先 我 们 需要 读 取 刚刚 的 CSV， 提 取 书 籍 名 称 和 评论 地 址 。 代 码 如 下 : 


import csv 
with open('book list.csv', encoding = 'utf-8') as f: 


csv file = csv.reader (f) 
link list = [[row[1],row[7]] for row in csv file] 
print (link list) 


上 述 代 码 使 用 CSV 读 取 之 前 的 图 书 列表 。 在 这 里 ， 我 们 使 用 link_list=[[row[1],row[7]]for row in csv_file] 的 方法 ， 能 够 快速 获取 列表 的 数据 并 提取 第 2 行书 籍 名 称 和 第 8 行 评 论 地 址 ， 得 到 的 结果 如 下 : 
[[ 薛 兆 丰 经 济 学 讲义 ， 
‘https://www.amazon.cn/product-reviews/BO7FDT8P6C/ref=zg bs books cr 1/460-2323606-4620969?ie=UTF8&refRID=QFDHJOEDBTBHGGKYQ32R',...] 


接 下 来 获取 图 书评 论 ， 以 下 代码 只 获取 第 一 页 的 评论 ， 如 果 读 者 有 兴趣 获取 后 面 页 面 的 评论 ， 可 以 自己 研究 一 下 。 


sel 
sel 
sel 
sel 


enium import webdriver 

enium.webdriver.support.wait import WebDriverWait 
enium.webdriver.support import expected conditions as 
enium.webdriver.common.by import By 


EC 
E 


webdriver.FirefoxProfile () 

t_ preference ("permissions.default.image", 2) 
fp.set preference ("javascript.enabled", False) 
driver = webdriver.Firefox(executable path = r'C:\Users\santostang\Desktop\geckodriver.exe', f 


# 把 上 述 地 址 改 成 你 电脑 中 Firefox 程 序 的 地 址 


file = 


Fox pro 


for eachbook in link list: 
book title = eachbook[0] 
link = eachbook[1] 
if link != "": 
output list - [] 
driver.get (link) 
locator = (By.ID, "cm cr-review list') 


WebDriverWait (driver, 20, 0.5).until(EC.presence of element located (locator) ) 


soup = BeautifulSoup(driver.page source, "lxml") 
for each in soup.find("div", id-"cm cr-review list").find all("div", class -"review"): 
name — each.find("span", class -"a-profile-name").text 
star = each.find("span", class -"a-icon-alt").text 
star = star.replace(" MH, 最 多 5 MH", "") 
title = each.find("a", class -"review-title").text 
date = each.find("span", class -"review-date").text 
review = each.find("span", class ="review-text") .text 
print (book title, title) 


output list.append([book title, name, star, title, date, review]) 


-8') ile: 


with open('book review.csv', 'at', newline-'', encoding-'utf as csvf 
spamwriter = csv.writer(csvfile,dialect-'excel') 
spamwriter.writerows (output list) 


time.sleep (2) 


上 述 代 码 聆 取 相 应 的 图 书页 面 ， 使 用 BeautifulSoup 获 取 相 应 的 评论 数据 。 最 后 ， 把 数据 写 入 CSV 文 件 中 ， 得 到 book _review.csv 文 件 。 
我 们 遍历 图 书 的 链接 地 址 ， 因 为 有 一 些 图 书 并 没有 评论 ， 所 以 要 加 上 一 个 判断 : iflink!l=”:， 只 疏 取 那些 有 评论 的 图 书 。 


但 是 运行 上 述 代 码 的 时 候 ， 如 果 没 加 入 等 待 的 话 ， 疏 取 第 一 个 图 书 地 址 时 就 会 报错 。 报 错 结果 为 Soup.find(class_= "cm_cr-review_list") 是 一 个 NoneType， 也 就 是 说 ，HTM| 数 据 还 没有 加 载 出 来 评论 
的 标签 就 开始 提取 数据 了 。 


针对 这 个 问题 ，Selenium 也 有 很 好 的 方法 解决 。 除 了 上 述 隐 式 等 待 implicitly wait(xx)， 还 可 以 使 用 显 式 等 待 WebDriverWait， 根 据 判 断 条 件 进行 灵活 的 等 待 。 主 要 的 意思 是 : 程序 每 隔 xx 秒 看 一 眼 ， 
如 果 条 件 成 立 ， 就 执行 下 一 步 ， 否 则 继续 等 待 ， 直 到 超过 设置 的 最 长 时 间 ， 然 后 抛 出 TimeoutException。 


首先 ， 在 代码 开始 处 加 入 : 


from sel 
from sel 
from sel 


enium.webdriver.support.wait import WebDriverWait 
enium.webdriver.support import expected conditions as 
enium.webdriver.common.by import By 


EC 
E 


这 样 可 以 导入 Selenium 库 中 相应 的 需要 显 式 等 待 的 部 分 ， 然 后 在 driver.get(link) 后 加 入 : 


locator = (By.ID, "cm cr-review list') 


WebDriverWait (driver, 20, 0.5).until(EC.presence of element located (locator)) 


这 两 行 代码 实现 了 显 式 等 待 ， 当 class 为 content 的 元 素 出 现 后 ， 程 序 才 会 继续 向 下 执行 。WebDriverWait 的 意思 是 : WebDriverWait (driver， 超 时 时 长 ， 调 用 频率 ， 忽 略 异常 ) .until (可 执行 方法 ， 
超时 时 返回 的 信息 ) 。 


这 里 的 EC 使 用 了 selenium 中 的 expected_conditions。presence_of_ element located 用 于 判断 验证 元 素 是 否 出 现 ， 传 入 的 参数 都 是 元 组 类 型 的 locator， 如 (By.ID, cm_cr-review _list)。 因 此 ， 可 以 实 
现 当 id 为 cm_cr-review_ list 的 元 素 出 现 后 ， 程 序 才 会 继续 执行 显 式 等 待 。 


执行 完 新 的 代码 后 ， 得 到 的 数据 结果 如 图 17-8 所 示 ， 这 就 是 图 书 的 评论 ， 包 括 评论 用 户 名 、 标 题 、 时 间 等 。 


b 


A 

EETTTTITTI 
| 醉 光 丰 经 济 学 讲义 
薛 兆 丰 经 济 学 讲义 
薛 兆 丰 经 济 学 讲义 
5 | 薛 兆 丰 经 济 学 讲义 
| 薛 兆 丰 经 济 学 讲义 
7 | 薛 兆 丰 经 济 学 讲义 
| 薛 兆 丰 经 济 学 讲义 
| 薛 兆 丰 经 济 学 讲义 
0|| 薛 兆 丰 经 济 学 讲义 


BAUN 
Ld 


oO o 


1 | 我 的 第 一 本 专注 力 训练 书 
| 我 的 第 一 本 专注 力 训练 书 
我 的 第 一 本 专注 力 训练 忆 
4 | 我 的 第 一 本 专注 力 训练 书 
5 | 我 的 第 一 本 专注 力 训练 书 
| 我 的 第 一 本 专注 力 训练 书 
| 我 的 第 一 本 专注 力 训练 书 
| 我 的 第 一 本 专注 力 训练 忆 
9 | 我 的 第 一 本 专注 力 训练 书 
0 | 我 的 第 一 本 专注 力 训练 书 

葵 康 永 的 情商 课 -为 你 自己 活 亚马逊 买 家 


B 
RIL 
亚马逊 客户 
flora 
亚马逊 买 家 
仲夏 夜 
五 星 酒 店 9 
亚马逊 买 家 
范 洪 湛 
zyd 
23. 86 
( Kindle 客户 
( 曾 琴 
( 亚马逊 买 家 
( 泥 妹 
( 2002ups 
(XS 
(欢笑 
(亚马逊 买 家 
( 亚马逊 买 家 
(452 


22 | 蔡康永 的 情商 课 :为 你 自己 活 凡 悦 颜 

23 蔡康永 的 情商 课 :为 你 自己 活 亚 马 逊 买 家 
24 | 蔡康永 的 情商 课 : 为 你 自己 活 亚马逊 买 家 
25 | 蔡康永 的 情商 课 :为 你 自 己 活 岸 晓 风 

26 | 蔡康永 的 情商 课 : 为 你 自己 活 海蓝 蒲 十 
27 | 蔡康永 的 情商 课 : 为 你 自己 活 sandeexing 
28 | 蔡康永 的 情商 课 :为 你 自己 活 Fairy 

29 | 蔡康永 的 情商 课 :为 你 自己 活 亚马逊 买 家 
30 | 玖 康永 的 情商 课 : 为 你 自己 活 June 


D 
4 不 抬杠 的 经 济 学 
5 设计 成 土 黄色 字体 
4 时 空 穿越 
5 喜欢 ， 喜 欢 
5 很 不 错 
5 非常 好 
5 趣味 性 
5 HAIR TO et 
5 值得 认真 阅读 
5 大 家 能 看 慌 的 经 济 : 
4 还 不 错 ， 能 够 引起 1 
4 我 的 第 一 本 专注 力 i 
5 一 本 锻炼 观察 力 和 : 
5 我 的 第 一 本 专注 力 1 
5 很 喜欢 
1 非常 不 推荐 
5 很 专注 的 看 看 看 
5 值得 推荐 
5 娃 很 喜欢 
5 除了 不 知道 能 否 锻 ; 
5 意外 又 惊喜 的 一 本 : 
5 带 读者 认识 自我 
5 那些 年 ， 蔡 康永 教 : 
5 蔡康永 的 内 心 世界 ， 
5 蔡康永 的 又 一 次 "高 
5 高 情商 的 快乐 人 生 i 
5 自我 认 知 与 思考 
5 真正 做 自己 
5 情商 圣经 
5 让 内 心 更 强大 
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2018££11H13H 全 书 几 乎 没有 数学 公式 ， 对 于 观点 与 理论 的 介绍 纯 由 纸 面 的 远 辑 推导 。 对 于 经 济 学 原理 上 
2018 年 11 月 15 日 五 星 是 给 内 容 的 。 书 是 好 书 ， 内 容 有 趣 易 读 。 可 是 里 面 有 些 的 字体 设计 成 土 黄色 ， 加 上 
2018 年 12 月 17 日 收 到 后 看 到 2019 年 印刷 有 点 慌 ， 担 心 是 假 的 。 有 朋友 说 是 年 底 提前 印 了 ， 不 是 很 确定 。 
2018 年 12 月 6 日 喜欢 蕉 老师 的 课程 。 

2018 年 12 月 10 日 纸张 质量 真 好 ， 很 不 错 ， 早 就 想 买 这 本 书 了 ， 比 当当 网 上 的 便宜 ， 质 量 又 好 
2018 年 12 月 3 日 没有 经 济 学 基础 ， 但 是 却 被 这 本 书 深 深 吸 引 了 。 

2018 年 12 月 19 日 还 没 全 部 看 完 啊 但 很 有 起 RH 
2018 年 12 月 1 日 书 皮 表 面 有 点 破 了 

2018 年 12 月 13 日 对 经 济 学 有 了 不 同 与 以 往 的 认识 ， 值 得 一 读 。 

2018 年 12 月 16 日 RÆK, ERJ, RIEF! 

2017 年 8 月 23 日 内 容 还 不 错 ， 可 以 很 好 的 引导 孩子 去 玩 ， 但 是 页 面 的 纸 质 设计 还 是 比较 有 问题 的 ， 既 然 
2018 年 3 月 21 日 看 了 之 前 购买 过 的 评论 有 些 纠 结 的 还 是 买 了 这 本 书 ， 我 觉得 没有 有 些 评 论 那么 夸张 ， 书 上 
2018 年 8 月 3 日 孩子 两 岁 不 到 时 买 了 这 本 书 ， 刚 开始 找 不 到 就 不 原意 再 找 了 ， 后 来 就 能 集中 注意 力 找 一 
2018 年 3 月 11 日 孩子 本 不 专注 ， 但 是 买 这 个 书 之 后 跟 他 说 把 这 个 当成 闯关 游戏 ， 一 定 要 好 好 通关 ， 他 非 兴 
2017 年 3 月 13 日 小 朋友 很 喜欢 ， 每 晚上 床 都 要 看 一 会 儿 。 

2018 年 12 月 12 日 给 孩子 买 过 景 模 袜 的 书 ， 看 得 人 头晕 。 她 每 次 兴致 勃勃 打开 ， 就 惊 采 了 ， 只 是 用 手指 着 
2018 年 8 月 3 日 看 了 别人 的 评价 ， 买 的 。 确 实 是 很 吸引 小 朋友 ， 可 以 自己 坐 在 那里 很 安静 的 寻 寻 见 风 。 稀 
2017 年 9 月 7 日 适合 四 岁 到 五 岁 的 孩子 阅读 ， 通 过 从 昂 到 难 的 过 程 使 孩子 可 以 很 好 的 提高 识 物 辩 图 的 能 
2017 年 6 月 7 日 娃 两 岁 三 个 月 ， 买 了 这 本 书 一 两 个 月 了 ， 最 近 娃 开始 超 迷 这 本 书 ， 每 天 起 床 后 睡觉 前 必 量 

2016 年 10 月 30 日 可 以 让 孩子 很 容易 上 手 ， 很 喜欢 玩 的 书 ， 也 可 以 家 长 一 起 玩 ， 一 起 找 一 样 的 东西 ， 也 有 

2018 年 11 月 20 日 从 康 早 来 了 到 奇 苑 说 ， 一 直 是 蔡康永 的 粉丝 ， 他 真 的 超 会 说 话 ， 情 商 满 分 ， 总 能 把 1 秒 转 

2018 年 11 月 22 日 蔡康永 老师 在 情商 课 这 本 书 里 ， 并 没有 讲 什 么 大 道理 。 他 更 像 一 位 经 历 多 一 些 的 朋友 ， 

2018 年 11 月 19 日 本 有 机 会 成 为 “ 富 二 代 "， 但 蔡康永 偏偏 不 是 。 葵 蔡 的 说 话 之 道 是 毋 良 置 疑 的 ， 曾 经 以 为 直 

2018 年 11 月 16 日 还 记得 上 学 的 时 候 天 天 获 夜 看 的 《康熙 来 了 》， 惊 叹 于 蔡康永 的 播 科 打 译 ， 各 种 刁钻 的 间 

2018 年 11 月 17 日 毫 不 夸张 的 说 ， 在 综艺 节目 主持 人 里 面 ， 蒙 康永 是 最 杰出 的 之 一 。 一 方面 是 他 的 名 气 的 # 

2018 年 11 月 18 日 一 提 到 蔡康永 ， 就 想到 他 的 高 情商 和 说 话 之 道 ， 那 温润 如 玉 的 气质 ， 那 泌 泌 如 流水 的 言 计 

2018 年 11 月 19 日 近期 看 的 最 好 的 一 本 中 文 读物 ， 没 有 刻意 煽情 或 者 做 作 ， 很 多 字眼 直 枚 内 心 的 角落 。 标 时 

2018 年 11 月 19 日 刚刚 拿 到 书 ， 比 预计 早 了 半天 ， 丰 好 。 今年 年 初 就 知道 有 蔡康永 的 情商 课 这 个 音频 了 ， 

2018 年 11 月 21 日 打开 这 本 书 就 被 里 面 的 插画 吸引 了 ， 简 洁 ， 安 静 的 解释 着 需要 我 们 理解 的 内 容 。 蔡 康永 

2018 年 11 月 23 日 看 过 《说 话 之 道 》， 追 过 《 康 坚 来 了 》 和 《 奇 苑 说 》， 偶尔 看 一 看 或 听 一 听 鸡 汤 文 ， 问 并 


图 17-8 ”显示 图 书 的 评论 信息 


如 果 本 章 的 息 虫 对 你 来 说 太 简单 ， 可 以 将 多 服务 器 或 Tor 乳 虫 与 本 章 的 内 容 结 合 起 来 ， 尝 试 一 下 更 换 IP 的 他 虫 。 如 果 你 仍 有 兴趣 ， 可 以 尝试 模仿 第 12 章 的 内 容 ， 将 Tor 息 曰 和 多 线程 技术 结合 起 来 。 唯 有 


多 进行 训练 和 实践 ， 礁 虫 的 功夫 才能 更 上 一 层 楼 。 


